我在查看网站日志的时候发现了这样的蜘蛛爬行日记,这个蜘蛛就是SemrushBot,基本上每天都来,来也就算了,他爬行的还挺干净,基本所有的页面都会去看一下,产生的日志文件也挺大的,SemrushBot这个并不是什么搜索引擎,他是一个SEO优化数据分析工具,由国外的人开发的。
185.191.171.4 - - [08/Nov/2020:15:59:50 +0800] "GET /ly/hlj/list_8_hlj_12_jy_0.html HTTP/1.1" 200 2988 "-" "Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"
这个SemrushBot蜘蛛对我们的网站一点用都没有,只会白白浪费流量,还为网站产生很多的垃圾文件,所以直接禁封,不让他来抓取和爬行。SemrushBot蜘蛛是一个在线SEO分析平台的蜘蛛,他们的官网是www.semrushchina.cn,对国内网站用户来说,大家可能对它有些陌生,但是有很多做外贸的朋友应该都知道或使用过它,它在行业内还是比较知名的。
下面是屏蔽SemrushBot蜘蛛等相关的垃圾蜘蛛,在网站根目录下找到robots.txt文件,在该文件里面添加上以下代码即可:
User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MJ12bot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: ZoominfoBot Disallow: / User-agent: Mail.Ru Disallow: / User-agent: SeznamBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: ExtLinksBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Researchscan Disallow: / User-agent: DnyzBot Disallow: / User-agent: spbot Disallow: / User-agent: YandexBot Disallow: /
以上这些都是国外的蜘蛛,直接将其干掉,屏蔽他们来抓取网站,节省流量和减轻服务器压力,因为这些搜索引擎国内人不会用,就连很多专业的人士也不一定知道,对于面向用户是国内的网站,通过这些搜索引擎一个有效流量也不会带来,直接屏蔽好了。