解读搜索引擎原理

敖游
2019-03-20
来源:遨游建站

四、集成搜索引擎


集成搜索引擎(All-in-One Search Page)亦称为“多引擎同步检索系统 ”,是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便。

集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。

集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示。

任何搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。一种搜索引擎不可能满足所有人或一个人所有的检索需求。在某些情况下,如文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等等,人们往往需要使用多种搜索引擎,对搜索结果进行比较、筛选和相互印证。为解决逐一登陆各搜索引擎,并在各搜索引擎中分别多次输入同一检索请求(检索字串)等烦琐操作,集成搜索引擎和元搜索引擎应运而生。

集成搜索引擎起源

因特网上冲浪,你也许有这种痛苦经历:利用搜索引擎进行网页搜索时,在第一个搜索引擎中没有找到满意的结果,于是在第二、第三……个搜索引擎间奔波,为找到满意的结果而费时费力。其实,在因特网上已有不少聪明人开发出了一种Metasearch技术,即集成搜索,也叫索引搜索,来帮助上网者快速、全面、准确地搜索到自己确实需要的网页。这种技术的特点是:这些网站上集成了许多搜索引擎,你输入一个查询要求,它会将其适当格式化后提交给许多搜索引擎进行搜索,然后将返回的搜索结果进行整理、合并、集成为一个页面,或一份报告,内容就是你要的搜索结果。

集成搜索引擎优点

集成搜索引擎的优点是明显的:首先,它在一个网站上同时搜索许多搜索引擎,最终返回的结果被进行了适当的整合,删除了一些不适合和重复的网页,从而大大地节省你的时间、金钱和精力,使搜索变得更有效率;其次,它使你的搜索结果更为全面、准确,也更容易找到符合你需要的结果。


搜索引擎工作状态.jpg


搜索引擎的发展趋势


一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。

1、提高搜索引擎对用户检索提问的理解。

为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。

2、垂直主题搜索引擎有着极大的发展空间。

网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。目前,一些主要的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。

3、元搜索引擎,能够提供全面且较为准确的查询结果。

现在的许多搜索引擎,其收集信息的范围、索引方法、排名规则等都各不相同,每个搜索引擎平均只能涉及到整个Web资源的30-50%,这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。


主要的搜索引擎介绍


这里介绍的是在国内外影响比较大的主要的一些搜索引擎和分类目录站点,由于现在的站点一般都同时提供全文搜索和分类目录两种服务,所以我们按照其自有的技术进行分类和介绍。

1、主要的全文搜索引擎

  • Google(http://www.google.com/)。Google成立于1997年,几年间迅速发展成为世界范围内规模最大的搜索引擎。Google数据库现存有42.8亿个Web文件,每天处理的搜索请求已达2亿次,而且这一数字还在不断增长。Google借用Dmoz(http://dmoz.org/)的分类目录提供“网页目录”查询(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默认网站排列顺序并非按照字母顺序,而是根据网站PageRank的分值高低排列。

  • 百度(http://www.baidu.com/)。百度是国内最早的商业化(早期为其它门户网站提供搜索服务,现在的竞价排名更是日进斗金)全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场,除有网页搜索外,百度还有新闻、MP3、图片等搜索,并在2003年底推出“贴吧”、按地域搜索等功能。

  • 中国搜索(http://www.huicong.com/)。中国搜索的前身是慧聪搜索,原慧聪搜索在联合中国网等30多家知名网站的基础上,2002年9月25日,正式组建了中国搜索联盟,经过一年多的发展,联盟成员就已达630多家,成为中国互联网一支重要的力量。由于发展迅速,慧聪集团借上市之机,将慧聪搜索更名为中国搜索,全力发展其在搜索引擎方面的业务,以打造中文搜索领域的全新品牌。

2、主要分类目录

  • 雅虎中国分类目录(http://cn.yahoo.com/)。雅虎中国的分类目录是最早的分类目录,现有14个主类目,包括“商业与经济”、“艺术与人文”等,可以逐层进入进行检索,也可以利用关键词对“分类网站”进行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中国也可以对“所有网站”进行关键词搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索结果使用Google的数据,2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作。

  • 新浪分类目录(http://dir.sina.com.cn/)。新浪的分类目录目前共有18个大类目,用户可按目录逐级向下浏览,直到找到所需网站。就好像用户到图书馆找书一样,按照类别大小,层层查找,最终找到需要的网站或内容。通过和其它全文搜索引擎的合作,现在,也可以使用关键词对新浪的“分类网站”或“全部网站”进行搜索。

  • 搜狐分类目录(http://dir.sohu.com/)。搜狐分类目录把网站作为收录对象,具体的方法就是将每个网站首页的URL地址提供给搜索用户,并且将网站的题名和整个网站的内容简单描述一下,但是并不揭示网站中每个网页的信息内容。除此之外,也可以使用关键词对搜狐的“分类目录”或所有网站进行搜索。

  • 网易分类目录(http://search.163.com/)。网易的分类目录采用“开放式目录”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5000多位各界专业人士参与可浏览分类目录的编辑工作,极大地适应了互联网信息爆炸式增长的趋势。在加强与其它搜索引擎合作的基础上,新版搜索引擎支持使用关键词对所有网站进行检索。


百度搜索引擎工作方式


我所知道的百度搜索:由于工作的关系,小生有幸一直在使用百度的百事通企业搜索引擎(该部门现已被裁员,主要是百度的战略开始向谷歌靠拢,不再单独销售搜索引擎,转向搜索服务),据百度的销售人员称,百事通的搜索核心和大搜索的相同,只有可能版本稍低,因此我有理由相信搜索的工作方式大同小异。下面是一些简单介绍和注意点:

1、关于网站搜索的更新频率

百度搜索可以设定网站的更新频率和时间,一般对于大网站更新频度很快,而且会专门开设独立的爬虫进行跟踪,不过百度是比较勤奋的,中小网站一般也会每天更新。因此,如果你希望自己的网站更新得更快,最好是在大型的分类目录(例如yahoosina网易)中有你的链接,或者在百度自己的相关网站中,有你网站的超链接,在或者你的网站就在一些大型网站里面,例如大型网站的blog。

2、关于采集的深度

百度搜索可以定义采集的深度,就是说不见得百度会检索你网站的全部内容,有可能只索引你的网站的首页的内容,尤其对小型网站来说。

3、关于对时常不通网站的采集

百度对于网站的通断是有专门的判断的,如果一旦发现某个网站不通,尤其是一些中小网站,百度的自动停止往这些网站派出爬虫,所以选择好的服务器,保持网站24小时畅通非常重要。

4、关于更换IP的网站

百度搜索能够基于域名或者ip地址,如果是域名,会自动解析为对应的ip地址,因此就会出现2个问题,第一就是如果你的网站和别人使用相同的IP地址,如果别人的网站被百度惩罚了,你的网站会受到牵连,第二就是如果你更换了ip地址,百度会发现你的域名和先前的ip地址没有对应,也会拒绝往你的网站派出爬虫。因此建议,不要随意更换ip地址,如果有可能尽量独享ip,保持网站的稳定很重要。

5、关于静态和动态网站的采集

很多人担心是不是类似asp?id=之类的页面很难被收集,html这样的页面容易被收集,事实上情况并没有想的这么糟,现在的搜索引擎大部分都支持动态网站的采集和检索,包括需要登陆的网站都可以检索到,因此大可不必担心自己的动态网站搜索引擎无法识别,百度搜索中对于动态的支持可以自定义。但是,如果有可能,还是尽量生成静态页面。同时,对于大部分搜索引擎,依然对脚本跳转(JS)、框架(frame)、

Flash超链接,动态页面中含有非法字符的页面无可奈何。

6、关于索引的消失

前面讲过,搜索的索引需要创建,一般好的搜索,索引都是文本文件,而不是数据库,因此索引中需要删除一条记录,并不是一件方便的事情。例如百度,需要使用专门的工具,人工删除某条索引记录。据百度员工称,百度专门有一群人负责这件事情——接到投诉,删除记录,手工。当然还能直接删除某个规则下的所有索引,也就是可以删除某个网站下的所有索引。还有一个机制(未经验证),就是对于过期的网页和作弊的网页(主要是网页标题、关键词和内容不匹配),在重建索引的过程中也会被删除。

7、关于去重

百度搜索的去重不如谷歌的理想,主要还是判别文章的标题和来源地址,只要不相同,就不会自动去重,因此不必担心采集的内容雷同而很快被搜索惩罚,谷歌的有所不同,标题相同的被同时收录的不多。

补充一句,不要把搜索引擎想得这么智能,基本上都是按照一定的规则和公式,想不被搜索引擎惩罚,避开这些规则即可。


谷歌搜索排名技术


对于搜索来说,谷歌强于百度,主要的原因就是谷歌更加公正,而百度有很多人为的因素,google之所以公正,源于他的排名技术PageRank。

很多人知道PageRank,是网站的质量等级,越小表示网站越优秀。其实PageRank是依靠一个专门的公式计算出来的,当我们在google搜索关键词的时候,页面等级小的网页排序会越靠前,这个公式并没有人工干预,因此公正。

PageRank的最初想法来自于论文档案的管理,我们知道每篇论文结尾都有参考文献,假如某篇文章被不同论文引用了多次,就可以认为这篇文章是篇优秀的文章。

同理,简单的说,PageRank能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外,PageRank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。

Page Rank的公式这里省略,说说影响Page Rank的主要因素

1、指向你的网站的超链接数量(你的网站被别人引用),这个数值越大,表示你的网站越重要,通俗的说,就是其它网站是否友情链接,或者推荐链接到你的网站;

2、超链接你的网站的重要程度,意思就是一个质量好的网站有你的网站的超链接,说明你的网站也很优秀。

3、网页特定性因素:包括网页的内容、标题及URL等,也就是网页的关键词及位置。


搜索引擎的发展趋势


一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。

1、提高搜索引擎对用户检索提问的理解。

为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。

2、垂直主题搜索引擎有着极大的发展空间。

网上的信息浩如烟海,网络资源以惊人的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。目前,一些主要的搜索引擎,都提供了新闻、Mp3、图片、Flash等的搜索,加强了检索的针对性。

3、元搜索引擎,能够提供全面且较为准确的查询结果。

现在的许多搜索引擎,其收集信息的范围、索引方法、排名规则等都各不相同,每个搜索引擎平均只能涉及到整个Web资源的30-50%,这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。


新网站如何应对搜索


1、搜索引擎为什么不收录你的网站,存在以下可能(不绝对,根据各自情况不同)

  • 没有任何指向链接的孤岛网页,没有被收录的网站指向你的超链接,搜索引擎就无法发现你;

  • 网站中的网页性质及文件类型(如flash、JS跳转、某些动态网页、frame等)搜索引擎无法识别;

  • 你的网站所在服务器曾被搜索引擎惩罚,而不收录相同IP的内容;

  • 近期更换过服务器的IP地址,搜索引擎需要一定时间重新采集;

  • 服务器不稳定、频繁宕机,或者经不起爬虫采集的压力;

  • 网页代码劣质,搜索无法正确分析页面内容,请至少学习一下HTML的基本语法,建议使用XHTML;

  • 网站用robots(robots.txt)协议拒绝搜索引擎抓取的网页;

  • 使用关键词作弊的网页,网页的关键词和内容严重不匹配,或者某些关键词密度太大;

  • 非法内容的网页;

  • 相同网站内存在大量相同标题的网页,或者网页的标题没有实际含义;


2、新站如何做才正确(仅供参考)

  • 和优秀的网站交换链接;

  • 广泛登录各种大网站的网站目录列表;

  • 多去质量好的论坛发言,发言要有质量,最好不要回复,发言中留下自己网站地址;

  • 申请大网站的博客(新浪、网易、CSDN),并在博客中推广自己的网站;

  • 使用好的建站程序,最好能生成静态页面和自动生成关键词;

  • 重视每个网页的标题,以及<head>区域,尽量把符合的关键词放在这些容易被搜索索引的位置,重视文章的开头部分,尽可能在文章的开始部分使用类似摘要的功能(可以学学网易的文章样式)。

例如“基于开源jabber(XMPP)架设内部即时通讯服务的解决方案”;

标题部分:<title>基于开源jabber(XMPP)架设内部即时通讯服务的解决方案- 肥龙龙(expendable)的专栏 -CSDNBlog</title>

关键词部分:<meta name="keywords"cCOLOR:#c00000">安装,">

文章描述部分:<metaname="description" cCOLOR:#c00000">是著名的即时通讯服务服务器,它是一个自由开源软件,能让用户自己架即时通讯服务器,可以在Internet上应用,也可以在局域网中应用。

XMPP(可扩展消息处理现场协议)是基于可扩展标记语言(XML)的协议,它用于即时消息(IM)以及在线现场探测。它在促进服务器之间的准即时操作。这个协议可能最终允许因特网用户向因特网上的其他任何人发送即时消息,即使其操作系统和浏览器不同。XMPP的技术来自于Jabber,其实它是Jabber的核心协定,所以XMPP有时被误称为Jabber协议。Jabber是一个基于XMPP协议的IM应用,除Jabber之外,XMPP还支持很多应用。


2  /  2
阅读613
分享
写评论...