在百度的众多排名算法中,其中有一项是停用词。百度爬虫为了能够提高索引的速度和节省存储空间,当在索引页面内容时会对一些没有意义的词过过滤掉。也就是被爬虫停用到这些词,我们称被爬虫停掉的词称为停用词,英文叫“stopword(停用词)”。
一、百度停用词类型
百度停包用词包括了语气助词、副词、介词、连接词等,通常自身并无什么明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。
下面再举个例子来说明什么是停用词,象“IT技术点评”,虽然其中的“IT”从我们的本意上是指“Information Technology”,事实上这种缩写也能够为大多数人接受,但对搜索引擎来说,此“IT”不过是“it”,即“它”的意思,这在英文中是一个极其常见、同时意思又相当含混的词,在大多数情况下将被忽略。我们在IT技术点评中保留“IT”更多地面向“人”而非搜索引擎,以求用户能明了IT技术点评网站涉及的内容限于信息技术,虽然从SEO的角度这未必是最佳的处理方式。
二、为什么要有停用词
搜索引擎的文本的检索量非常大,而其中很大一部分是语气助词,副词等基本上没有意义的文字,比如:哎,哎哟,别的,结果,让,不过,等等。
停用词为什么选择这些词主要有以下两大原因:
这些功能词极其普遍。记录这些词在每一个文档中的数量需要很大的磁盘空间。
由于它们的普遍性和功能,这些词很少单独表达文档相关程度的信息。如果在检索过程中考虑每一个词而不是短语,这些功能词基本没有什么帮助。
三、编辑人员要注意使用停用词
编辑人员需要了解这些停用词,因为在网页标题中尽量不要出现停用词,这样可以更好的突出我们优化的关键词;
编辑文章时,尽量少用的停用词可以提高页面的关键词密度。