`
Ryee
  • 浏览: 272969 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

百度爬虫Baiduspider更新通知

阅读更多
各位网站管理员,大家好!

百度网页搜索spider的User-Agent字段内容近期将更新,请大家关注,谢谢!

更换时间:
2011年5月10日
   
更换内容:
baiduspider在爬取网页时,发送请求的User-Agent字段内容将更新。
目前的字段内容是
Baiduspider+(+http://www.baidu.com/search/spider.htm)
更换后的字段内容是
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

更换后您需要做什么:
- 如果您已在robots文件中封禁了百度网页搜索的User-Agent,本次更新不会产生任何影响,也无需修改robots文件。
- 如果您此前主动在服务器端封禁了百度网页搜索的User-Agent,那么建议修改服务器端要封禁的User-Agent字段,或者更换为robots封禁。
- 如果还有其他问题,请通过投诉中心(tousu.baidu.com)联系我们。

谢谢!

百度搜索引擎Spider产品团队
分享到:
评论

相关推荐

    BaiduSpider,一个爬取百度搜索结果的爬虫.zip

    目前支持百度网页搜索,百度图片搜索,百度知道搜索,百度视频搜索,百度资讯搜索,百度文库搜索,百度经验搜索和百度百科搜索。 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问...

    百度有价值内容 baidu SEO

    登录百度站长平台,使用抓取诊断工具,抓取诊断工具会检查站点与百度的连接是否畅通,若站长发现IP信息还是老旧的,可以通过“报错”通知百度搜索引擎更新IP。由于spider精力有限,如遇报错后网站IP依旧没有变化,...

    百度蜘蛛的代码分析与饲养技巧

    研究se爬行规律对于网站优化意义重大,特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码代表的具体含义:

    模拟百度谷歌等蜘蛛抓取访问工具

    该工具集成了各大常见蜘蛛UA,模拟这些蜘蛛UA访问抓取网站,目前网络上很流行蜘蛛挂马,通过该工具模拟访问可以分析网站是否被挂针对搜索引擎的挂马,可以模拟蜘蛛查看源码。 用法也很简单,打开以后输入目标地址,...

    Nginx反爬虫策略,防止UA抓取网站

    目前网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,为防止网站有可能会被别人爬,通过配置Nginx, 我们可以...

    BaiduSpider-web:百度蜘蛛网页版

    BaiduSpider网页版 此版本为Beta阶段的BaiduSpider网页版,演示: ://baidus.now.sh

    Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为

    做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,...

    scrapy 爬百度,bing大图

    python 通过scrapy框架,根据关键字爬取百度和bing大图 注意: 1.修改commands/crawl.py run函数为: def run(self, args, opts): if len(args) raise UsageError() # elif len(args) > 1: # raise UsageError...

    如何建设对BaiduSpider友好的站点

    站点结构 • 逻辑清晰的链 接层次结构 • PC/移动适配 • 数据主动提交 • 避免目录被黑/ 售卖 页面结构 • 不建议使用JS 加载页面内容 • 布局符合移动 友好性标准 • 索引页&&索引 ...• 死链反馈

    利用php抓取蜘蛛爬虫痕迹的示例代码

    前言 相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用... 'Baidu' => 'baiduspider', 'Yahoo'

    您所查看的网页不允许百度保存其快照的设置方法

    今天在百度搜索一个页面的时候,因为页面已经被删除,所以就自然而然用百度快照,打开百度快照,却显示:对不起,您所查看的网页不允许百度保存其快照,所以想到把如何设置禁止百度快照缓存的方法写下来,方法如下:...

    用php实现让页面只能被百度gogole蜘蛛访问的方法

    普通用户与搜索引擎蜘蛛爬行的区别在于发送的user agent,看网站日志文件能发现百度蜘蛛名字包含Baiduspider, 而google的则是Googlebot, 这样我们可以通过判断发送的user agent来决定要不要取消普通用户的访问,编写...

    在线生成Robots.txt 的Js脚本

    内容索引:脚本资源,Ajax/JavaScript,Robots 在线生成Robots.txt 的Js脚本,能帮助新手快速正确的建立 网站的Robots.txt文件,建立一个支持Google(谷歌) 、 Baidu(百度) baiduspider 、 Sogou(搜狗) sogou spider 、...

    Nginx禁止指定UA访问的方法

    本文介绍 Nginx 禁止指定 UA 访问的配置。 ...因此,对 webserver 来说,有一种禁止访问的方式,就是对 UA 进行判断。 禁止搜索引擎爬虫 ...if ($http_user_agent ~* qihoobot|Baidu|Baiduspider|Baiduspider-ima

    阿铭IE蜘蛛模拟伪装工具.exe

    阿铭IE蜘蛛模拟伪装工具.exe 可以把IE模拟成任意蜘蛛 例如: 谷歌 GoogleBot 百度 Baiduspider 可以伪装成任意形式. 可以查看只允许蜘蛛抓去的网站内容. 适合SEO站长使用 作者QQ:57544477

    PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT

    百度baiduspider 谷歌googlebot 搜狗sogou 腾讯SOSOsosospider 雅虎slurp 有道youdaobot Bingbingbot MSNmsnbot Alexais_archiver function is_crawler() { $userAgent = strtolower($_SERVER['HTTP_USER_AGENT'])...

    php实现屏蔽掉黑帽SEO的搜索关键字

    由于Baiduspider对每个站点的抓取额是有限定的,所以这些垃圾搜索结果页被百度收录,会导致其它有意义的页面因配额问题不被收录,同时可能因百度处理垃圾页面而影响网站正常排名。  具体的参考百度官方的页面...

    实现蜘蛛捕捉的PHP代码

    if (strpos($useragent, 'baiduspider') !== false){ return 'Baiduspider'; } if (strpos($useragent, 'sohu-search') !== false){ return 'Sohubot'; } if (strpos($useragent, 'lycos') !== false){ return '...

Global site tag (gtag.js) - Google Analytics