UA封禁:UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA封禁。
UA禁封是robots协议封禁,一般是指网站根目录下面的robots.txt文件设置了针对搜索引擎蜘蛛的禁止抓取。
比如:
User-agent: Baiduspider
Disallow: /baidu
这个设置指的是专门适用百度蜘蛛、禁止抓取网站根目录下面的名为baidu的文件。
UA禁封与IP禁封的区别
IP禁封是指限制网络的出口IP地址,禁止该IP段的使用者进行内容访问。而UA禁封则是针对服务器通过UA(用户代理)识别身份后的用户进行指定的跳转。
抓取异常对网站的影响
对于大量内容无法正常抓取(这里包括受到UA禁封与IP禁封等处罚)的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
其他抓取异常状态还包括:
对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
针对百度UA的异常:网页对百度UA返回不同于页面原内容的行为。
JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
压力过大引起的偶然封禁:百度会根据站点的规模,访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样百度spider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。
暂无评论,快来发表吧~