百度搜索将于9月底推出清风算法,旨在严惩网站通过网页标题作弊,欺骗用户并获得点击的行为;从而保证搜索用户体验,促进搜索生态良性发展。
站长学院已上线《网页标题作弊详解》,各位站长可根据详解尽快自查并整改网站标题内容,避免被命中算法造成损失。
百度算法更新历程
2017年9月,清风算法
打击目标:网页标题作弊,包括但不限于标题关键字堆砌、与内容不符、张冠李戴等。主要针对修改TITLE堆砌关键词或进行内容劫持的黑帽子网站。净化搜索引擎索引。
官方文档:http://zhanzhang.baidu.com/wiki/1090
2017年6月,飓风算法
打击目标:大量进行恶劣采集低质量内容的网站。打击通过大量采集的行为快速增加内容,以加快收录的做法,以保护原创内容。净化搜索引擎索引。
2014年11月,冰桶算法2.0
打击目标:使用全屏的点击下载元素遮盖网页,在页面内布置面积过大的广告遮挡内容,强制用户登录的站点行为。增加用户浏览体验。
2014年8月,冰桶算法
打击目标:弹窗APP下载,在页面内布置面积过大的广告遮挡内容的站点行为。增加用户浏览体验。
2013年7月,绿萝算法2.0
打击目标:大量发布带外链文章的网站。本次增加文章外链过滤力度,增大了处罚力度。净化搜索引擎索引。
2013年5月,石榴算法
打击目标:弹窗广告泛滥,含有大量劣质广告的网站。增加用户浏览体验。
2013年2月,绿萝算法
打击目标:链接交易网站。包括出卖链接、购买链接等行为。净化搜索引擎索引。
连载一《网页标题作弊详解》
一、 网页标题定义与作用
1.1 定义
网页标题是对一个网页的高度概括;举例来说,网站首页的标题就是网站的正式名称。
具体在源码中的体现如下图:
1.2 作用
通过阅读标题,用户可以了解到页面的主体内容,对网页有初步感知。
二、标题作弊的定义
标题作弊主要指标题内容虚假、或在标题中故意堆砌关键词等行为。
标题内容虚假指标题表述的内容与网页内容不相符,有欺骗用户嫌疑。
标题故意堆砌指在标题中多次重复、过度堆砌关键词。
三、常见标题作弊的示例
3.1 标题内容虚假
3.1.1 假官网情况,非官方网站表述为官网。
url
http://www.40407.com/pingtai/4399.html
线上截图
源码中标题
3.1.2标题说明中有TXT下载,但是页面不提供下载服务。
url
http://m.vodtw.com/wapbook-25732-21987478/
线上截图
源码中标题
3.1.3标题描述为小说下载,但是下载下来的却是APP。
url
http://www.redshu.com/article/158462.html
http://m.duote.com/android/220331.html
线上截图
源码中标题
3.1.4 在标题中说明有百度云下载、支持在线观看,但是页面既不能下载,又不能在线观看。
url
http://m.3158.cn/news/show_3785425.html
线上截图
源码中标题
3.1.5 标题中表述部分虚假,如网页标题中提示有江苏一本大学排名,但页面只有大学名单,而没有排名相关的内容。
url
http://m.gaokao.com/jiangsu/ybdx/
线上截图
源码中标题
3.2 标题重复、堆砌
3.2.1 标题关键词大量重复
url
https://n.yimanwu.com/qinglv
线上截图
源码中标题
3.2.2 标题大量堆砌标签
url
http://www.ditan369.com/
线上截图
源码中标题
四、优质标题书写建议
1.标题书写中不出现错别字。
2.标题语意通顺,不出现病句、表述不明。
3.标题书写工整,无乱码杂质,无分句与截断,无关键词堆积。
4.标题不建议过长,页面标题可以概括为“核心词+适当修饰词”的格式,核心词是核心内容,修饰词放在核心词后边,切忌出现表述冗余。
5.标题围绕着页面主体内容撰写,和页面内容相关,且能突出页面的核心内容。
6.标题建议使用用户所熟知的语言描述(不建议中文繁体、多国语言混在一起)。如果网站有中、英文两种网站名称,尽量使用用户熟知的那一种作为标题描述。
五、分页面类型标题建议
好的网页标题,不仅能明确表达网页的主旨目的,更能给到搜索用户引导,吸引目标用户点击。以下是优质网页标题建议:
5.1 首页
5.1.1 定义
首页是整个网站的最重要的入口。
首页标题中核心词为品牌词/网站名称,修饰词包括官网、官方网站、首页、主页、Home、网站的slogan等。
5.1.2 格式
标题格式:“站点名/品牌名_首页/官网/slogan”
5.1.3 合理标题示例:
优酷首页
京东(JD.COM) _正品低价、品质保障、配送及时、轻松购物!
淘宝网_淘!我喜欢
5.2 列表/频道页
5.2.1 定义
站点内频道/列表类页面的标题是核心词列表/频道方向内容,修饰词可以是站点名、品牌词或宣传语。
5.2.2 格式
标题格式:“列表/频道名_上级频道(可省)_站点名”
5.2.3 合理标题示例
男士频道_唯品会
男士频道_唯品会_一家专门做特卖的网站
优酷财经,好看的财经_ 优酷视频
5.3 主题聚合页
5.3.1 定义
主体聚合页是围绕某一主题各方面属性聚合而成的内容集合。
此类页面的核心词是围绕的主题,修饰词可以是主题的属性、站点名、品牌词或宣传语。
5.3.2 格式
标题格式:“主题_属性1_属性2_上级频道(可省)_站点名”
建议:核心词只出现一次,属性在页面中出现,属性词不多于3个
5.3.3 合理标题示例:
成都旅游攻略_玩法路线_自由行攻略_热门景点_美食推荐
5.4 内容页
5.4.1 定义
内容页是指具体的内容页,比如文章详情页、商品详情页、具体视频的播放页等。
此页面核心词是内容的主体说明,比如文章的标题、视频的名称、商品/店铺的名称等,修饰词可以是上级频道内容、站点品牌词或slogan等。
5.4.2 格式
标题格式:“内容标题_列表/频道名(可省)_站点名”
建议:内容尽量经过加工处理,不直接复用内容中的一段文字;尤其美食菜谱类,重复不超过3次及以上
5.4.3 合理标题示例:
致命罗密欧_VIP会员_高清视频_爱奇艺
18号台风“泰利”生成,或成今年“风王”!_中国新闻网
清风算法3.0:针对下载站违规问题
为了规范下载行业站点及智能小程序的欺骗下载、捆绑下载等伤害用户的行为,百度搜索分别于2018年4月、2018年10月发布清风算法2.0、3.0版本,清风算法覆盖的问题范围从标题作弊行为扩展到下载行业站点及智能小程序的欺骗用户行为。
2018年10月,百度搜索发布《百度搜索下载站质量规范》,对百度搜索范围内下载站点及智能小程序的行为进行严格要求和控制。不符合此规范的下载站或智能小程序,将会被清风算法3.0覆盖,受到搜索展现的限制。
1、下载站质量规范概要
下载站需遵守以下原则,坚持为用户提供高质量、有效,安全的下载服务:
保证软件的安全性,无挂马、窃取用户隐私等恶意行为;
无”李鬼下载“行为,通过普通下载/本地下载入口下载的软件必须为下载按钮文字描述的目标软件;
下载页面中不能存在与下载按钮类似的诱导类广告;
允许存在安全下载/高速下载的情况,但是页面中必须有明确说明解释。
2、下载站质量规范说明
2.1、PC端下载站质量规范
图示:PC端下载站页面
a板块.本地下载:
应保证下载软件的安全性,无挂马、窃取用户隐私等问题;
本地下载/普通下载点击后,效果必须为直接下载目标软件,不能存在下载内容与描述不符的“李鬼下载”问题;
b板块.高速下载:
若存在高速下载情况,需要在页面上明确告知用户其与本地下载(如上图a区所示)的区别,如:说明实际效果为先下载高速下载器,然后在高速下载器中下载目标软件(如上图b区所示);
c板块.诱导广告:
下载页面中不能存在与下载按钮相似的诱导类广告,如上图c区所示的情况是不允许出现的。
2.2、高速下载器规范
说明:此项规范针对用户在PC页面中下载高速下载器后,通过高速下载器下载目标软件的情况。
图示:用户下载高速下载器打开后的界面
①允许下载前默认勾选推荐软件(如上图红框区域所示),但是用户可自主根据实际需求取消勾选,取消勾选后不能再将推荐软件进行捆绑下载;
②推荐下载的软件不能为色情、赌博等违法软件;
2.3、移动端下载站质量规范
图示:移动端下载界面
①保证下载软件的安全性,无挂马、窃取用户隐私等问题;
②下载点击后,效果必须为直接下载目标软件,不能存在“李鬼下载”现象;
③下载需要有明确说明,在页面上告知用户,如上图所示,说明实际效果为先下载某应用市场,后续可在应用市场中下载目标软件,这种方式更加安全等;
④允许默认勾选,优先进行高速下载,但用户可自主根据实际情况取消勾选,直接进入普通下载,下载目标软件。
关于清风算法3.0的更多信息请参考:
2018.10.16 百度搜索推出清风算法3.0,规范下载行业生态
2018.10.11 百度搜索下载站质量规范
2018.4.19 百度搜索将推出清风算法2.0 严厉打击欺骗下载
2021.9.2 促进下载生态良性发展,清风算法4.0即将上线
百度搜索引擎14个算法
绿萝算法:首次发布于2013年2月,主要用于打击超链中介、出卖链接、购买链接等超链作弊行为。
石榴算法:首次发布于2013年7月,主要打击含有大量低质弹窗广告及大量混淆页面主体内容等垃圾广告的页面。
冰桶算法:首次发布于2014年8月,针对强行弹窗app下载、用户登录、大面积广告等低质站点和页面进行调整,对用户可直接使用的优质资源进行优先展现。
天网算法:首次发布于2016年8月,主要是针对部分站点存在盗取用户隐私的行为进行打击。主要表现为网页嵌恶意代码(多为JS代码),用于盗取网民的QQ号、手机号。
蓝天算法:首次发布于2016年11月,目的是严厉打击新闻源网站售卖软文、目录行为。
烽火算法:首次发布于2017年2月,主要用于对出现恶意劫持行为的站点进行干预处理,全力打击有损用户体验和安全的行为。
飓风算法,首次发布于2017年7月,旨在严厉打击以恶劣采集为内容主要来源的网站。
清风算法:首次发布于2017年9月,在严惩网站通过网页标题作弊,欺骗用户并获得点击的行为;从而保证搜索用户体验,促进搜索生态良性发展。
闪电算法:首次发布于2017年10月,主要针对移动网站首屏加载时间,移动网页首屏在2秒之内完成打开的,在移动搜索下将获得提升页面评价优待。
惊雷算法:首次发布于2017年11月,旨在严厉打击通过刷点击,提升网站搜索排序的作弊行为;以此保证搜索用户体验,促进搜索内容生态良性发展。
极光算法:首次发布于2018年5月,给予符合落地页时间因子(文章的发布时间)要求且时效性较高的网页更多的收录、展现机会。
细雨算法:首次发布于2018年7月,主要是为了促进供求黄页类B2B站点生态健康发展。
信风算法:首次发布于2019年5月,主要打击用户点击翻页键时,自动跳转至网站的其他频道页(如目录页、站外广告页等)的行为。
劲风算法:首次发布于2020年2月,主要针对恶劣聚合页问题进行规范和控制。