2月27日,百度搜索资源平台发布了《劲风算法即将上线》的官方公告,针对恶劣聚合页问题进行规范和控制。为了更好的帮助广大开发者了解劲风算法,避免出现类似问题影响站点、智能小程序在搜索中的表现,我们结合算法发布后大家关注度较高的问题逐一拆解说明,请广大开发者参考。
上线时间:2019年02月27日
打击对象:主要针对站点着陆页恶意构造聚合页面内容的行为,包含:页面内容与站点本身所属领域不符、无专注领域、多为采集拼凑内容。页面内容与标题及页面中标记的标签不符。网站搜索功能生成的静态搜索结果页。空短、无有效信息、失效的聚合页。
算法意义:保障搜索用户的体验、保证搜索结果公平。
劲风算法惩罚的目的
劲风算法,主要惩罚的对象是针对恶劣的聚合页。
不管是网站还是百度智能小程序,都在劲风的惩罚范围内。而基于这个算法的面世,其主要问题是行业内,存在很多单纯以获得流量为目的,不管用户搜索需求满足度以及搜索体验的聚合页。百度为了保障搜索用户在使用搜索引擎时的整体体验,同时保证搜索排序的公平公正性。上线了劲风算法。就是为了惩罚创造这一类聚合的网站。
而针对恶劣聚合页,主要分为四种类型:
1、站点内容跨领域或过于分散
这个指的是网站中包含了太多领域的词汇。例如你既要做游戏、又搞教育,还参与了加盟,甚至有电影。不仅搜索引擎无法识别你网站自身的专注领域,用户访问你站点的聚合页后,得到的体验也是极差的。
这种网站一般都是通过采集拼凑的内容。而这种网站也基本可以理解为是完全基于流量目的的流量站。只能是站长单方面获得了流量,但对用户、对搜索引擎都是伤害的。
2、标题与内容不相符
这里所说的标题,更多的可以理解为是我们聚合页面的关键词,例如这个聚合页你的关键词是SEO培训,而里面调取的内容有介绍游戏的、介绍电影的等与关键词本身不相关的内容。这样即便搜索用户进入到你这个聚合页,还是不能很好的解决用户需求!
3、利用站内搜索生成的聚合页
利用站内搜索功能,批量生成静态页面,这种操作是批量生成聚合页的惯用手法。多为大内容量较大的网站盛行。
SEO通过大量的关键词整理,然后技术人员以这些词为站内的搜索词,将返回的搜索结果批量生成另一种模板的页面。称之为利用站内搜索做聚合页最典型的方式。
这种页面生成的技术含量最难点在于自身搜索引擎的技术能力。而很多网站又没有专业的搜索引擎团队,即便生成出来的内容,相关性差、页面可读性低。同样是劲风算法打击的对象。
4、内容为空,或较少,以及失效的聚合页
批量生成的聚合页,以SEO为首,单纯以获取流量为目的的页面。大多都会存在聚合页内,调取的内容过少,甚至为空的现象。
这种类型的页面可想而知,毫无用户体验可言。所以劲风算法对其进行惩罚也是早晚的事情!
什么情况决定了劲风算法的惩罚周期呢
从经验上来看,网站构成劲风算法的惩罚条件后。会从以下两个维度进行考虑(个人推断):
1、对搜索生态造成影响的程度,例如你聚合页的体量很大,且造成了一定时间内大量搜索用户体验较差的情况。
2、聚合页满足惩罚条件过多的,上面提到的4种情况中,满足一条就会遭受惩罚,但很有可能同时符合4种降权条件:既是领域分散的网站,又利用站内搜索批量生成静态页,且内容为空的、过少的多的自己都没统计过。
更多的会围绕这两个维度的情况,进行智能给出惩罚周期!
命中劲风算法后,如何进行整改,恢复?
那,命中劲风算法之后,我们就等着恢复吗?如果不对网站进行整改是基本不可能恢复的。所以恢复的前提是你已经改过自新了!而针对整改我给出如下建议:
从大原则上,来看劲风算法惩罚的问题
前提要明确,聚合页还是可以做的,只不过针对不能满足搜索用户需求,单纯以获取自然搜索来源流量为目的的,是不能再做了。你也不要报着上有对策、下有政策的心态,想办法去规避被惩罚。即便这一次你没有命中,那么按照百度的惯例,还会有下一次的劲风算法2.0等着你。
具体的一些整改措施
1、针对网站领域过于分散的
建议确定好一个主要的领域,且将其他领域的内容robots掉,屏蔽搜索引擎抓取,且不再参与搜索引擎排名;
更完美的方式是对其他领域的内容进行删除,并将删除的内容URL在百度搜索资源平台提交404,确保网站无恙。
2、针对题文不相符的
如果你有精力与资源,可以对应每一个聚合页的主题进行审查,确保聚合页下内容都是针对当前聚合页主题所延展的相关内容。
从技术角度看,建议通过内容相似度计算的方式将网页内的主体文本进行提取计算。得出当前聚合页的主题与内容的相似度得分。
并通过实际观察,确保相似度得分在哪个值上,是可以解决搜索用户需求的。
例如通过观察,我认为相似度得分达到62%(便于理解的假设值)的,基本都是相关页面,那么针对低于62%的暂时就别在前端页面进行展示了,如果这类URL被访问到建议设置404,并提交百度搜索资源平台!
3、针对利用搜索批量生成的
利用站内搜索批量生成的内容,其最关键的问题在于其内容无法满足用户需求。毕竟你的搜索引擎技术无法与百度相比。这里给出的建议是:
招聘精通搜索引擎的技术人员,针对搜索调取的内容相关进行大幅度提升。从而提升用户的体验度。
利用第3点提到的相似度判断方式,让编辑协助完成低于62%的聚合页的内容撰写工作。以此不断提升满足62%的内容量。
技术能力达不到的,可以通过其他办法进行尝试,但最终还是无法确保满足用户需求的,建议删除或者robots操作。
4、针对内容为空或过于少,甚至无效的
内容为空,甚至过少。在你站点内容资源很丰富没得到更多调取到聚合页的情况时,可以采取以下方式:
将更多品类的内容进行搜索整理,从而提升聚合页下内容整体的丰富度,前期要保证相关性。例如我这个聚合页是围绕爬虫抓取策略展开的,那么其调取的内容都应该基于爬虫抓取的策略,不能剑走偏锋,适得其反!
其次,也可以给予你的聚合页关键词进行分类。例如爬虫抓取、爬虫算法、搜索引擎爬虫、baiduspider,我们认为是一类聚合页。当内容为空或少于X条时,我们可以通过扩展调取的维度进行补全。
从技术需求的实现角度可以为:如果当前聚合页下调取内容为0或不足X条时,那么调取当前聚合页所属关键词同类别的其他内容,补全X条。
这样一来,通过扩大调取的品类,以及给关键词做分类形成补全规则问题就能很少的得到解决!
但如果你的内容资源信息很少,那么建议设定的逻辑为:当内容低于X条,甚至为空时,当前页面返回404。另外,由于我们这些做了404的页面已经被收录或者爬虫抓取了,建议再提交百度搜索资源平台的死链提交工具,进行完备。确保不会让搜索引擎认为你网站存在大量的死链接!
2020年2月,百度搜索技术团队发现,部分网站及智能小程序通过恶意构造聚合页面内容来获取搜索排名,获得搜索用户关注,上线劲风算法,控制恶意构造聚合页的问题对搜索用户的影响。
聚合页,是指页面并无文章主体内容,而是多个页面的索引链接围绕在特定主题下的信息整合页。
1、页面内容与站点本身所属领域不符,或站点无专注领域,多为采集拼凑内容。
问题示例1:站点内容领域分散
2、页面内容与标题及页面中标记的标签不符。
问题示例2:页面内容与标题不符
3、由网站搜索功能生成的静态搜索结果页。
问题示例3:静态搜索结果页
4、空短、无有效信息、失效的聚合页。
问题示例4:无有效信息的聚合页
百度搜索引擎14个算法
绿萝算法:首次发布于2013年2月,主要用于打击超链中介、出卖链接、购买链接等超链作弊行为。
石榴算法:首次发布于2013年7月,主要打击含有大量低质弹窗广告及大量混淆页面主体内容等垃圾广告的页面。
冰桶算法:首次发布于2014年8月,针对强行弹窗app下载、用户登录、大面积广告等低质站点和页面进行调整,对用户可直接使用的优质资源进行优先展现。
天网算法:首次发布于2016年8月,主要是针对部分站点存在盗取用户隐私的行为进行打击。主要表现为网页嵌恶意代码(多为JS代码),用于盗取网民的QQ号、手机号。
蓝天算法:首次发布于2016年11月,目的是严厉打击新闻源网站售卖软文、目录行为。
烽火算法:首次发布于2017年2月,主要用于对出现恶意劫持行为的站点进行干预处理,全力打击有损用户体验和安全的行为。
飓风算法,首次发布于2017年7月,旨在严厉打击以恶劣采集为内容主要来源的网站。
清风算法:首次发布于2017年9月,在严惩网站通过网页标题作弊,欺骗用户并获得点击的行为;从而保证搜索用户体验,促进搜索生态良性发展。
闪电算法:首次发布于2017年10月,主要针对移动网站首屏加载时间,移动网页首屏在2秒之内完成打开的,在移动搜索下将获得提升页面评价优待。
惊雷算法:首次发布于2017年11月,旨在严厉打击通过刷点击,提升网站搜索排序的作弊行为;以此保证搜索用户体验,促进搜索内容生态良性发展。
极光算法:首次发布于2018年5月,给予符合落地页时间因子(文章的发布时间)要求且时效性较高的网页更多的收录、展现机会。
细雨算法:首次发布于2018年7月,主要是为了促进供求黄页类B2B站点生态健康发展。
信风算法:首次发布于2019年5月,主要打击用户点击翻页键时,自动跳转至网站的其他频道页(如目录页、站外广告页等)的行为。
劲风算法:首次发布于2020年2月,主要针对恶劣聚合页问题进行规范和控制。