联系站长 加入收藏 设为首页 繁體中文 RSS
  首页 | 生活百科 | 电脑网络 | 高手学堂 | 语录名言 | 读书文学 | 极品软件 | 奇趣图片 | 站长微博  
 您的位置: 精品百字节网 >> 电脑网络 >> 站长宝典 >> 正文 当前没有通告!
   □  搜索引擎爬虫程序一览表大全    3星级
搜索引擎爬虫程序一览表大全
[ 作者:作者不详     来源:互连网     点击数:     更新时间:2007-11-09     文章录入:Admin
【字体:
[内容提要]
暂无简介

高强度爬虫程序
Baiduspider+(+http://www.baidu.com/search/spider.htm)
百度爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。
推广效果好。
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎爬虫,分别是雅虎中国和美国总部的爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫)
推广效果尚可。
iaskspider/2.0(+http://iask.com/help/help_index.html)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
新浪爱问爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。
sogou spider
搜狗爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。


中等强度爬虫程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google爬虫
算法优秀,多为访问有实际内容的页面
推广效果好。
Mediapartners-Google/2.1
google点击广告爬虫
特点未知
OutfoxBot/0.5 (for internet experiments; http://; <-- var prefix = 'ma' + 'il' + 'to'; var path = 'hr' + 'ef' + '='; var addy25950 = 'outfoxbot' + '@' + 'gmail' + '.' + 'com'; var addy_text25950 = 'outfoxbot' + '@' + 'gmail' + '.' + 'com'; document.write( '' ); //-->  outfoxbot@gmail.comoutfoxbot@gmail.com )
网易爬虫
其搜索算法需要改进
推广效果差。
ia_archiver
Alexa排名爬虫
作用未知


其他搜索引擎的爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
MSN爬虫
特点未知
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
(欢迎补充资料)
特点未知
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt)
(欢迎补充资料)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
名字上看来是Qihoo的
特点未知
Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html)
Gigabot搜索引擎爬虫。已被google收购?(欢迎补充资料)
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com)
lanshanbot/1.0
据说是中搜爬虫。(欢迎补充资料)
iearthworm/1.0, <-- var prefix = 'ma' + 'il' + 'to'; var path = 'hr' + 'ef' + '='; var addy81212 = 'iearthworm' + '@' + 'yahoo' + '.' + 'com' + '.' + 'cn'; var addy_text81212 = 'iearthworm' + '@' + 'yahoo' + '.' + 'com' + '.' + 'cn'; document.write( '' ); //-->  iearthworm@yahoo.com.cniearthworm@yahoo.com.cn
TMCrawler
WebNews http.pl


RSS扫描器
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)
这是用foxmail6.0订阅了你的rss
\rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)
google的rss搜索扫描器
\rss.asp feedsky_spider http://www.feedsky.com
一款rss扫描器,有兴趣者进入此网站添加您的rss

上一篇文章:中国主要城市DNS服务器IP地址列表 下一篇文章:友情链接的重要作用
发表评论 □告诉好友 □打印此文 □收藏此页 □关闭窗口 □返回顶部
 最新热点文章
 精品医院类网站网址大收集
 如何删除windows 2003或xp系统隐藏的...
 DedeCms管理员后台登陆经常自动退出的...
 知道IP如何用dos命令查出电脑名称
 WORD出错老是要求以安全模式打开文件...
 如何设置首页不显示页眉页脚?
 如何利用inurl命令查询网站外链及栏目...
 
 最新推荐文章
 精品医院类网站网址大收集
 如何利用宽带路由器控制局域网内电脑上...
 CSS圆角代码的实现方法
 带停顿的单行文字滚动代码
 实用的新网站免费收录提交地址精选
 Left join , Right Join, Inner Join用...
 趣话淘宝网衍生的多种新型职业
 
 最新图文
  ◇  网友评论:(只显示最新5条。评论内容只代表网友观点,与本站立场无关!)
关于本站 | 免责申明 | 网站地图 | 联系站长 | 友情链接 | 与我同在
冀ICP备06032589号【虚拟化精英群虚拟化精英群续
  Copyright© 2006-2009 100byte.Com All Rights Reserved
网站声明:本网站是公益性质网站,部分内容来源于网络,如有侵犯您权利的地方,请与精品百字节站长联系,尽快修正.
Powered By CreateLive CMS 本站法律顾问:(冀港)武镇海律师
点击这里给我发消息