生态65
首页 电脑知识 正文

各种搜索引擎爬虫程序信息

电脑知识 4.83k

一、高强度爬虫程序



Baiduspider+(+http://www.baidu.com/search/spider.htm")

    百度爬虫

    高强度爬虫,有时会从多个IP地址启动多个爬虫程序!

    由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。

    推广效果好。



Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html")

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp")

    雅虎爬虫,分别是雅虎中国和美国总部的爬虫

    高强度爬虫,有时会从多个IP地址启动多个爬虫程序!

    比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫)

    推广效果尚可。



iaskspider/2.0(+http://iask.com/help/help_index.html")

Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

    新浪爱问爬虫

    算法差,大量扫描无实际意义的页面,对动态链接网站负担很大

    推广效果差。



Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07")

Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07")

    【早期用法:“sogou spider”】

    搜狗爬虫

    算法差,大量扫描无实际意义的页面,对动态链接网站负担很大

    推广效果差。



二、中等强度爬虫程序



Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html")

    Google爬虫

    算法优秀,多为访问有实际内容的页面

    推广效果好。



Mediapartners-Google/2.1

    Google AdSense广告内容匹配爬虫,对网页收录有一定辅助作用。



Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/"; )

    【早期采用“ OutfoxBot/0.5 (for internet experiments; http://"; outfoxbot@gmail.com)”】

    网易爬虫

    其搜索算法需要改进

    推广效果差。



ia_archiver

    Alexa排名爬虫,用于检测网站是否做了alexa排名的作弊。



Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html")

    美国斯坦福大学的一个学生研究项目。



三、其他搜索引擎的爬虫



msnbot/1.0 (+http://search.msn.com/msnbot.htm")

    MSN爬虫

    特点未知



msnbot-media/1.0 (+http://search.msn.com/msnbot.htm")

    (欢迎补充资料)

    特点未知



Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)

    DigExt并非一个独立的爬虫程序,而是IE5的“允许脱机阅读”模式标记。



Mozilla/3.0 (compatible; Indy Library)

    Indy Library本来是个开源程序库,但后来被spam bots冒用。

    抓取强度:各服务器上不一定

    推广效果:无



P.Arthur 1.1

    据称为北大天网的搜索引擎爬虫程序



Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)

    名字上看来是Qihoo的

    特点未知



Gigabot

Gigabot/2.0 (http://www.gigablast.com/spider.html")

    Gigabot搜索引擎爬虫。已被google收购?



eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com"; eapollo at global-opto dot com)



lanshanbot/1.0

    据说是中搜爬虫。(欢迎补充资料)



iearthworm/1.0, iearthworm@yahoo.com.cn

    专抓图片的爬虫,据说来源IP是3721或阿里巴巴。



TMCrawler



Mozilla/5.0 (compatible; heritrix/1.10.2 +http://i.stanford.edu/")

    开源的网络爬虫,一个数字图书馆项目。



WebNews http.pl



四、RSS扫描器



\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)

    这是用foxmail6.0订阅了你的rss



\rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html")

    google的rss搜索扫描器



\rss.asp feedsky_spider http://www.feedsky.com"

    一款rss扫描器,有兴趣者进入此网站添加您的rss

上一篇 萍乡-武功山风景名胜区
下一篇 绿思八期-年未感言与祝福

发表评论

还没有评论