什么是baiduspider,以及百度蜘蛛的抓取方式

博主:stpevenchowstpevenchow 6个月前 ( 10-18 ) 45 0条评论
摘要:     这是翻墙找的一篇文章,感觉还不错给大家分享一下    管理网站搜索引擎时要考虑的重要因素是网...

    这是翻墙找的一篇文章,感觉还不错给大家分享一下

    管理网站搜索引擎时要考虑的重要因素是网站搜寻器。搜索机器人或“蜘蛛人”会定期访问您的网页,并根据其发现的内容决定如何在搜索结果中对您的内容进行排名。

即使每个搜索引擎都会自动将爬虫发送到您的网页,您仍然可以控制它们与您的网站的交互方式。因此,正确管理蜘蛛设置对于对您的SEO产生积极影响非常重要。

在中国或中文网站上运行时,您将使用百度蜘蛛机器人。尽管与Google Spider类似,但是了解Baiduspider bot的差异以及如何阻止它非常重要。以及如何利用它来提高网站性能。

百度蜘蛛如何处理

什么是百度蜘蛛?
百度蜘蛛是中国最重要的搜索引擎百度所使用的爬行蜘蛛的正式名称。

您可能知道,Google在中国不运作。因此,在面向中国市场时需要此百度机器人。

百度蜘蛛如何工作
与其他任何搜索引擎搜寻器一样,Baiduspider是一种自动化软件,可以定期检查您网站的内容以收集信息,然后将这些信息用于在搜索引擎数据库中为您的页面建立索引。

Baiduspider每次访问您的页面时,都会查找特定信息,例如页面的结构,内容质量,内容更新,关键字等。抓取过程分为两个步骤:1)蜘蛛抓取页面并将其放入存储中; 2)它在页面上创建链接列表,以供日后检查。

利用收集的数据,百度将对您的内容进行排名。如果Baiduspider认为有价值,则将网页放在搜索结果的顶部,如果内容不符合百度的指南,则该网页将被降级。

您可能既不需要也不需要Baiduspider访问您的所有页面。因此,您需要了解如何阻止Baiduspider以及如何使其像您的内容一样。

许多网站管理员怀疑Baiduspider是否仅对中文网站进行爬网,或者是否还对中国境外的网站进行爬网。

要回答这个问题,请记住Baiduspider bot的工作原理与您网站的其他访问者完全一样。因此,如果中国用户可以访问您的网站,那么百度机器人也会这样做。当然,当百度抓取具有较高页面渲染时间或等待时间的海外网站时,总体排名肯定会很低,并且您在中国不会出现。因此,如果您的目标是中国市场,则必须在中国托管您的网站。

Baiduspider用户代理
为了收集信息,百度蜘蛛机器人使用了不同的代理。您会在此处找到按范围划分的列表:

百度产品名称

百度的用户代理

百度网络/手机搜索

百度蜘蛛

百度图片搜索

百度蜘蛛图片

百度视频搜索

百度蜘蛛视频

百度新闻搜索

百度蜘蛛新闻

百度书签搜索

百度蜘蛛收藏

百度商业搜索

百度蜘蛛广告

百度联盟搜索

百度蜘蛛

我应该允许百度蜘蛛抓取我的网站吗?
如果您瞄准中国市场,则必须绝对让Baiduspider爬网您的网站。此外,您需要了解百度设定的基本准则,以确保正确索引您的页面。我们将在下一节“如何在百度上排名更高”中考虑该主题。

但是,如果您对中国市场不感兴趣,则必须阻止Baiduspider bot抓取您的网站,以节省您希望实际用户使用的带宽。稍后,在本文中,我们将说明如何阻止百度蜘蛛bot。

如何在百度上排名更高?
中国的SEO广告活动必须符合百度的要求,例如Google的标准,但是有很多差异。

例如,海外托管的网站在中国表现不佳。这是由于政府的严格监控。他们会批准所有内容,然后才能在中国境内提供。因此,除非您的网站在中国托管,否则页面加载速度将很慢。就像在西方世界一样,搜索引擎和用户总是会因为网站运行缓慢而受到惩罚。

由于速度是至关重要的因素,因此强烈建议在您的网站上实施内容交付系统(CDN)。由于国家/地区的规模,CDN将在加速您在中国的网站方面发挥重要作用。使用CDN,您的用户将可以从最接近其位置的最快服务器访问您的内容。当百度蜘蛛访问您的网站时,这将得到积极反映。

其他主要差异与您网站的首页有关。百度主要关注主页,而对于Google来说,内部页面更为相关。此外,在百度上,新鲜的内容比冗长而深入的文章更重要。

百度搜索引擎优化

这些只是一些技巧,可以帮助您在百度上排名更高。但是,如果您想提高在中国的网站性能,建议您阅读有关“ 如何在中国进行SEO ”的详尽指南。

阻止百度蜘蛛的原因
阻止百度蜘蛛的唯一原因是,如果您对瞄准中国市场不感兴趣。在这种情况下,最好挡住蜘蛛。因此,您将避免浪费访问者可以使用的宝贵带宽,而不会不必要地降低网站速度。

但是,即使您与中国观众一起工作,有时也可能会想阻止百度蜘蛛。您可能会确定网站上的某些页面不相关,并且不希望对它们进行排名。例如,作者页面,标签等。在这种情况下,您需要从这些特定页面阻止Baiduspider bot。

如何阻止百度蜘蛛
为防止Baiduspider抓取您的网站,您需要创建robots.txt文件。您可以使用此文件在整个网站上或仅在选定的页面上阻止Baiduspider。

这些是您可以使用的robots.txt的一些示例:

为防止百度在整个网站上爬行:
用户代理:Baiduspider
   不允许: /

为防止百度抓取视频:
用户代理:Baiduspider-video
   不允许: /

为防止百度抓取图像:
用户代理:Baiduspider-image
   不允许: /

一些用户不喜欢尽管添加了robots.txt文件,但百度可能会跳过该文件并继续抓取该网站。其他用户报告说,百度在爬网方面可能非常激进,并且百度僵尸程序过于频繁且过于密集地访问其网站时遇到了问题。

如果是这种情况,并且您没有针对中国受众,则必须阻止Baiduspider,并防止其爬行对您的网站速度性能产生负面影响。

除了添加robots.txt之外,解决此问题的另一种方法是尝试在您的服务器域上禁止百度Spider IP。由于搜索引擎使用多个Baiduspider IP,因此此操作可能需要一些时间。

这是许多百度Spider IP中的一些列表:

220.181.32.11 220.181.32.16 220.181.32.22 220.181.32.49 220.181.32.51 220.181.32.64 220.181.32.68 220.181.32.98 220.181.50.207 220.181.50.220 61.135.168.131 61.135.168.14 61.135.168.173 61.135.168.39

如果您的Web服务器上装有PHP,则另一个选择是将其设置为使百度对每个页面请求的等待时间最长为999秒。

除此之外,如果要阻止百度显示网页快照,可以使用以下元标记:<元名称=“ Baiduspider” content +“ noarchive”>

结论

阅读本指南后,您将是与百度蜘蛛机器人打交道的最佳位置。这是您在中国进行SEO策略的关键一步。

正如我们所解释的,在确定要索引的页面以及不希望索引的页面时,了解百度如何爬网您的网站很重要。此外,了解Baiduspider检查您网站的哪些元素将帮助您优化资源,以在百度搜索结果中获得更好的定位。

浮窗式百度分享代码,请勿使用文字或图标

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏