除robots外其它禁止百度收录的方法
Meta robots标签是页面head部分标签的一种,也是一种用于禁止搜索引擎索引页面内容的指令。目前百度仅支持nofollow和noarchive
nofollow:禁止搜索引擎跟踪本页面上的链接
如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的<HEAD> 部分:<meta name="robots" content="nofollow">
如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:<a href="signin.php" rel="nofollow">signin</a>
要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:<meta name="Baiduspider" content="nofollow">
noarchive:禁止搜索引擎在搜索结果中显示网页快照
要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分:<meta name="robots" content="noarchive">
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:<meta name="Baiduspider" content="noarchive">
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。
使用robots巧妙避免蜘蛛黑洞
对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但url不同的动态URL ,就像一个无限循环的“黑洞“,将spider困住。spider浪费了大量资源抓取的却是无效网页。
如很多网站都有筛选功能,通过筛选功能产生的网页经常会被搜索引擎大量抓取,而这其中很大一部分是检索价值低质的页面。如“500-1000之间价格的租房”,首先网站(包括现实中)上基本没有相关资源,其次站内用户和搜索引擎用户都没有这种检索习惯。这种网页被搜索引擎大量抓取,只能是占用网站宝贵的抓取配额,那么该如何避免这种情况呢?
1. 我们以北京美团网为例,看看美团网是如何利用robots巧妙避免这种蜘蛛黑洞的:
2. 对于普通的筛选结果页,使用了静态链接,如:
3. http://bj.meituan.com/category/zizhucan/weigongcun
4. 同样是条件筛选结果页,当用户选择不同排序条件后,会生成带有不同参数的动态链接,而且即使是同一种排序条件(如:都是按销量降序排列),生成的参数也都是不同的。如:http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
对于美团网来说,只让搜索引擎抓取筛选结果页就可以了,而各种带参数的结果排序页面则通过robots规则拒绝提供给搜索引擎。在robots.txt的文件用法中有这样一条规则:Disallow: /*?* ,即禁止搜索引擎访问网站中所有的动态页面。美团网恰是通过这种方式,对spider优先展示高质量页面、屏蔽了低质量页面,为spider提供了更友好的网站结构,避免了黑洞的形成。
禁止百度图片搜索收录某些图片的方法
目前百度图片搜索也使用了与百度网页搜索相同的spider,如果想禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现:
503状态码的使用场景及与404的区别
Html状态码也是网站与spider进行交流的渠道之一,会告诉spider网页目前的状态,spider再来决定下一步该怎么做——抓or不抓or下次再来看看。对于200状态码大家已经很熟了,那么我们来介绍几种常见的失效网页使用的状态码:
【404】404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。
【503】503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。
【301】301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
一些网站把未建好的页面放到线上,并且这些页面在被百度抓取的时候返回码是404,于是页面被百度抓取后会被当成死链直接删除。但是这个页面在第二天或者过几天就会建好,并上线到网站内展现出来,但是由于之前已经被百度当做死链删除,所以要再次等这些链接被发现,然后抓取才能展现,这样的操作最终会导致一些页面在一段时间内不会在百度出现。比如某个大型门户网站爆出大量新闻时效性很强的专题未被百度及时收录的问题,经检查验证后发现就是因为页面未建成就放置在线上,并返回404状态码,被百度当成死链删除,造成收录和流量损失。
对于这样的问题,建议网站使用503返回码,这样百度的抓取器接到503返回码后,会在隔一段时间再去访问这个地址,在您的页面建好上线后,就又能被重新抓取,保证页面及时被抓取和索引,避免未建好的内容设为404后带来不必要的收录和流量损失。
其它建议和总结:
1、如果百度spider对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了
2、如果站点临时关闭或者页面暂未建好上线,当网页不能打开时以及没有建好时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。
连通率为0的前因后果及预防补救措施
https站点如何做才能对百度友好
2015年5月25日,百度站长平台发布公告,宣布全面放开对https站点的收录,https站点不再需要做任何额外工作即可被百度抓收。采用了本文之前建议的https站点可以关闭http版,或者将http页面跳转到对应的https页面。
百度搜索引擎目前不主动抓取https网页,导致大部分https网页无法收录。但是如果网站一定要使用https加密协议的话该如何做到对百度搜索引擎友好呢。其实很简单:
1,为需要被百度搜索引擎收录的https页面制作http可访问版。
2,通过user-agent判断来访者,将Baiduspider定向到http页面,普通用户通过百度搜索引擎访问该页面时,通过301重定向至相应的https页面。如图所示,上图为百度收录的http版本,下图为用户点击后会自动跳入https版本。
3,http版本不是只为首页制作,其它重要页面也需要制作http版本,且互相链接,切不要出现这种情况:首页http页面上的链接依然链向https页面,导致Baiduspider无法继续抓取——我们曾经遇到这种情况,导致整个网点我们只能收录一个首页。如下面这个做法就是错误的:http://www.abc.com/ 链向https://www.adc.com/bbs/
4,可以将部分不需要加密的内容,如资讯等使用二级域名承载。比如支付宝站点,核心加密内容放在https上,可以让Baiduspider直接抓取的内容都放置在二级域名上。
第二节:链接建设
买卖链接对站点的危害
众所周知,搜索引擎会对站点获得链接的数量和质量进行分析,从而做出对网站的评价,最终影响站点在搜索结果中的表现。在搜索引擎看来,站点的链接质量比数量更为重要,然而愈演愈烈的链接买卖风潮,已经开始威胁到搜索引擎的公正性。为此百度质量团队推出了绿萝算法对买卖链接行为进行打击。
搜索引擎认为站点每发出一个链接指向另一个站点,都是一次投票行为,请您珍惜每一次投票的权力,而不是将这个权力出售,更不应该打包卖给链接中介公司。如果搜索引索发现站点有出售链接的行为,则会影响到站点在搜索引擎系统中的整体表现。对于广告类的链接,请您使用nofollow属性进行设置。除不出售链接外,您还应该关注建站程序的安全更新,及时安装补丁程序;经常对网站发出的链接进行检查,看是否有多余的、非主观意愿存在的链接,以免站点在不知情的情况下被黑帽SEO添加链接。
建议您不要企图求助于黑帽SEO和链接中介公司,他们很有可能使用极不正当的手段令站点在短时间内获得一定效果,但是搜索引擎有专门的程序去识别各种手段和行为,一旦被发现,站点会无法得到预期的效果,甚至被搜索引擎惩罚处理。最后,希望各位站长放眼于长远的未来,不要为眼前的蝇头小利所迷惑。将精力放在在自身内容和品牌建设上,拓展更多良性发展的盈利模式。
内链建设的大忌
在《百度搜索引擎工作原理》课程中我们提到过,Baiduspider需要知道站点里哪个页面更重要,其中一个渠道就是内链。那么内链建设有哪些大忌呢:
死循环链接:死循环链接是搜索引擎蜘蛛最郁闷的事情了,往往会把搜索引擎蜘蛛卡在一个角落中,无限的循环而走不出来,不仅白白浪费蜘蛛体力,也会占用网站大量爬取频率,造成有价值的网页抓取不全。比如万年历等非常实用的工具网站,很多时候这些工具你都可以无限的点击,每次点击都产生一个新的url,如果你没有屏蔽蜘蛛爬取这些内容,那么蜘蛛有可能会被带入到一个无限循环的境地,这样的做法对任何一个搜索引擎都是不友好的。
还有一种就是动态、带“?”号的url。这是由于动态网站的一个动态文件(如.php)可以产生上万个或者无数个链接,如果部分php文件内部又再次链向自己。蜘蛛进去就很难再爬出来。