-
7月29日
-
百度蜘蛛http状态码是指在百度蜘蛛对网站进行访问时网页服务器HTTP响应状态的3位数字代码。它表达了网页访问时所呈现的状态,对于站长而言,是了解网站整体情况必须掌握的内容。百度蜘蛛状态码需要在服务器日志中进行查看,一般通过服务器管理面板生成在根目录同级文件夹log下,以Log.gz结尾的文件,可以通过txt格式打开查看。
打开log文件后,通过查找baiduspider可以看到百度的访问状态。通过网站日志可以清楚的看到百度蜘蛛在什么时间、用什么IP、访问了网站哪个页面以及访问状态等。常见的服务器状态码有200状态码、301状态码、404状态码、500状态码等。下面,我们具体了解一下百度蜘蛛状态码。
2xx成功
200正常;请求已完成。
201正常;紧接POST命令。
202正常;已接受用于处理,但处理尚未完成。
203正常;部分信息—返回的信息只是一部分。
204正常;无响应—已接收请求,但不存在要回送的信息。
3xx重定向
301已移动—请求的数据具有新的位置且更改是永久的。
302已找到—请求的数据临时具有不同URI。
303请参阅其它—可在另一URI下找到对请求的响应,且应使用GET方法检索此响应。
304未修改—未按预期修改文档。
305使用代理—必须通过位置字段中提供的代理来访问请求的资源。
306未使用—不再使用;保留此代码以便将来使用。
4xx客户机中出现的错误
400错误请求—请求中有语法问题,或不能满足请求。
401未授权—未授权客户机访问数据。
402需要付款—表示计费系统已有效。
403禁止—即使有授权也不需要访问。
404找不到—服务器找不到给定的资源;文档不存在。
407代理认证请求—客户机首先必须使用代理认证自身。
410请求的网页不存在(永久);
415介质类型不受支持—服务器拒绝服务请求,因为不支持请求实体的格式。
5xx服务器中出现的错误
500内部错误—因为意外情况,服务器不能完成请求。
501未执行—服务器不支持请求的工具。
502错误网关—服务器接收到来自上游服务器的无效响应。
503无法获得服务—由于临时过载或维护,服务器无法处理请求。
百度蜘蛛对常用的http状态码的处理逻辑:
1、404
404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内百度蜘蛛再次发现这条url也不会抓取。
2、503
503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度蜘蛛不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这 个url仍会被百度认为是失效链接,从搜索结果中删除。
3、403
403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度蜘蛛暂不会抓取,短期内会 再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问 几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。
4、301
301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的 流量损失。虽然百度蜘蛛现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
百度对于某些常见情况的使用建议:
1、如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度蜘蛛该页面临时不可访问,请过段时间再重试。(现在百度站长工具出了临时闭站功能。)
2、如果百度蜘蛛对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度蜘蛛会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。(可以通过百度站长工具调整压力。)
3、有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好处理之后,再返回正常状态的返回码。
4、站点迁移,或域名更换时,请使用301返回码。
案例:
我曾经为一家电子商务网站提供SEO顾问服务,网站每日新增商品由商家发布,商品发布后便成为一个有效的商品,并会出现到网站平台的商品检索结果以及商品列表中, 同时,平台运营方需要对商品进行审核,对于没有审核通过的商品则进行删除操作;于是,会出现一些情况:新增商品页面被百度爬虫抓取,但随之该页面被删除。
由于网站在百度的权重比较高,几乎每日新增商品页都会很快收录,因此,在这批新收录的商品页面中有一定比例的页面很快不存在了,即:一批刚被收录的页面又向百度蜘蛛返回了404状态码,简单以蔽之,“让百度收了再让百度删”,我觉得百度可能会“很生气,后果很严重”。
为解决这个问题,我之前采取了如下方法:
既然将商家发布的商品包含两种状态:已审核和未审核,那么就为商品页面设计2种URL规则,如果商品未审核,则使用第1套URL规则,同时,利用robots协议限制百度蜘蛛爬虫抓取这些页面;如果商品已审核,那么就与已有商品一样,使用第2套URL规则。这样就可以确保百度Spider抓取到的商品页面都是有效页面,不会由于商品审核不通过而单日内出现大量404页面。
是否可以利用403状态码来解决该问题?思路如下:
判断商品是否通过平台运营方审核,是的话,页面就返回200,否的话,就返回403;对于正常的商品页面,可以确保百度蜘蛛正常抓取;对于新增商品,百度新发现的URL是返回403的,当再次回访这些页面时,由于商品已经审核通过,返回的状态码由403变成了200,则百度仍可抓取到;方法仍然有待实验,毕竟之间存在一个时间差以及百度对于返回403的页面是否存在收录效果不佳的风险。
对于301状态码,在以往的SEO交流中,大家一致认为百度对301并不感冒,而且反应速度超级慢,但无论怎样,301仍然是其推崇的一种规范的处理方式,宗旨,做网站优化,良好的规范是必要的。
除非注明,文章均为宿迁波仔博客原创,转载请注明本文地址:http://wangboxyk.cn/post/baiduzhizhu-baidu-spider-zhuangtaima.html标签:百度 网站运营
- 评论:(12)
- 隐藏评论
【评论很精彩,有内幕、有真相!】