网站装了Spider Analyser这个插件后,查看了一下蜘蛛行为,发现好多没用的营销蜘蛛在爬,比例达到了发指的70%以上,耗费了服务器大量资源。

但是Spider Analyser如果要禁用某个蜘蛛需要购买Pro版本,本着能省就省的态度,我百度了一下怎么屏蔽蜘蛛,发现了还是有办法的。

之前,我看了教程,通过robots.txt协议来控制蜘蛛抓取,结果没有任何作用,因为这玩意没几个蜘蛛会遵守,尤其是那些垃圾蜘蛛。正常情况下都是采用web服务器来控制,比如nginx的防止垃圾蜘蛛抓取的代码如下:

#禁止垃圾蜘蛛抓取
if ($http_user_agent ~* (SemrushBot|python|Linespider|crawler|DingTalkBot|simplecrawler|ZoominfoBot|zoombot|Neevabot|coccocbot|Facebot|YandexBot|Adsbot|DotBot|Applebot|DataForSeoBot|MJ12bot|BLEXBot|trendictionbot0|trendictionbot|AhrefsBot|hubspot|opensiteexplorer|leiki|webmeup)) { return 444;
}

下面是宝塔中的设置页面:

代码里面的这些蜘蛛基本上都是无用蜘蛛,就像我的蜘蛛里的占最头的SemrushBot就是营销蜘蛛,还有一些是对网站没啥用的蜘蛛如Facebot、Applebot等。但是一些搜索引擎蜘蛛千万不要屏蔽了,不然就别想网站被收录了。

头条:Bytespider头条蜘蛛
谷歌:Googlebot搜索引擎http://www.google.com/bot.html
神马:YisouSpider搜索引擎https://zhanzhang.sm.cn/open/spider
百度:Baiduspider搜索引擎http://www.baidu.com/search/spider.htm
头条:Bytespider 头条引擎
搜狗:sogou spider 搜索引擎 http://www.sogou.com/docs/help/webmasters.htm#07
必应:bingbot搜索引擎http://www.bing.com/webmaster/help/which-crawlers-does-bing-use-8c184ec0
360:360Spider搜索引擎http://www.haosou.com/help/help_3_2.html
soso:Sosospider搜索引擎http://help.soso.com/webspider.htm
雅虎:Yahoo!搜索引擎http://help.yahoo.com/help/us/ysearch/slurp

刚设置好,还没试效果,今天清一下蜘蛛日志,过两天看看效果。

 

 

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。