BE违规抓取eBay
美国加州北部的联邦地方法院就在著名的eBayVS. Bidder's Edge案中(NO.C-99-21200RMW,2000 U.S Dist. LEXI 7282),引用robots协议对案件进行裁定。 Bidder's Edge(简称BE)成立于1997年,是专门提供拍卖信息的聚合网站,BE利用“蜘蛛”抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量。
对于eBay来说,来自BE蜘蛛每天超过十万次的访问,给自己的服务器带来了巨大的压力。而虽然eBay早已设置了robots协议禁止BE蜘蛛的抓取,但BE却无视这个要求——原因很简单,据估算,BE网站69%的拍卖信息都来自eBay, 如果停止抓取eBay内容,这意味着BE将损失至少三分之一的用户。
数次沟通交涉未果后,2000年2月,忍无可忍的eBay终于一纸诉状,将BE告上联邦法庭,要求禁止BE的违规抓取行为。3个月后,受理此案的美国联邦法官Ronald M. Whyte在经过多方调查取证后做出裁定,认定BE侵权成立,禁止了BE在未经eBay允许的情况下,通过任何自动查询程序、网络蜘蛛等设置抓取eBay的拍卖内容。
在当时的庭审中,双方争议的焦点主要集中在“网站是否有权设置robots协议屏蔽其他网站蜘蛛的抓取”。被告BE认为,eBay的网站内容属于网民自创,因此是公共资源,eBay无权设立robots协议进行限制。然而,法院对这一说辞却并不认同。在法官看来:“eBay 的网站内容属于私有财产,eBay有权通过robots协议对其进行限制。”违规抓取的行为无异于“对于动产的非法侵入”。
也正是出于这一判断,即使当年BE还只是搜索了eBay计算机系统里的一小部分数据,其违反robots协议的抓取行为,仍然被判为侵犯了eBay将别人排除在其计算机系统以外的基本财产权。
作为美国历史上第一个保护互联网信息内容的法律裁定,eBay与BE的这起纠纷,成为网络侵权案的标志性案例,并在当时引发了美国互联网产业乃至社会的广泛讨论。SearchEngine Watch的知名专栏作家DannySullivan 曾专门在文章中指出,robots协议是规范搜索引擎爬虫行为的极少数约定之一,理应遵守,它不仅仅让整个互联网的开放性变成可能,最终也让整个互联网用户受益。
360搜索无视robots协议
2012年8月,360综合搜索被指违反robots协议:
2012年8月29日,上线不到十日即轻松登上国内第二大搜索引擎宝座的奇虎360搜索遭遇滑铁卢,在百度一项打击违规抓取和匿名访问的措施上线后,360搜索通过山寨加绑架用户的模式被彻底揭穿,这个故事也正是对所谓“搜索引擎技术无用论”的当头棒喝。
“360综合搜索已超出Robots协议的‘底线’,不仅未经授权大量抓取百度、google内容,还记录国内知名网游的后台订单、优惠码等,甚至一些用户的电子邮箱、帐号、密码也被360通过浏览器悄然记录在案”。2012年8月28日业内一位有10年搜索工程师经验的专业人士表示。
奇虎360搜索8月16 日上线,已连续遭到业界“违规”的警告。不仅UI设计,搜索结果直接剽窃、篡改百度、google等搜索引擎,还不顾国际通行的Roberts协议,抓取百度、google等搜索引擎的内容,很多商业网站和个人信息的私密内容也被抓取泄密。据悉,这种匿名访问和违规抓取其他网站内容的行为,不仅严重违反了行业底线,也伤害到了用户的体验。在国外,这种行为甚至会受到法律方面的制裁。“这已经严重触碰了Robots协议的底线!这些让如百度这样踏踏实实做技术的公司进行反击行动,是必然的!”
这位搜索工程师告诉记者,所谓Robots协议,通俗的讲就是网站会通过robots.txt协议来自主控制是否愿意被搜索引擎收录,或者指定搜索引擎只收录指定的内容。而搜索引擎会按照每个网站主给与自己的权限来进行抓取。这就好比,一个正常的人去到别人家里,需要先敲门,得到许可以后才能进入客厅。除非有主人的进一步许可和邀请,否则你不能擅自进入内室,或者在别人家里四处溜达。当然,强盗或者小偷例外。
对于奇虎360综合搜索被爆出无视国际通行的robots协议,抓取百度、Google等搜索引擎内容,导致众多网站出于安全和隐私考虑不允许搜索引擎抓取的内网信息被泄露一事,资深互联网观察家洪波指出,做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争,这种行为不能从法律和政府监管上及时制止,将引发行业大乱。
百度并没有禁止所有爬虫抓取问答、知道和贴吧的内容,百度只是禁止了不规矩的、存在潜在安全风险的爬虫,这恰是保护市场秩序,保护用户隐私的合理举措。2008年淘宝也曾禁止百度爬虫,而百度则严格遵守robots协议,停止抓取淘宝网内容,并没有以淘宝不正当竞争为借口违反robots协议。
中国工程院院士高文:Robots协议是搜索引擎在抓取网站信息时要遵守的一个规则,是国际互联网界通行的道德规范。网站主人通过Robots协议明示自动抓取程序,服务器上什么内容可以被抓取,什么内容不可以被抓取。这是保证互联网行业健康发展的自律准则,尽管不是强制命令,但业界都应该遵守。中国互联网企业要想在国际舞台受到更多关注、得到更大的发展,没有理由不遵守这个游戏规则。如果不遵守,不仅损害了违规企业自身的形象,也损害了中国互联网行业的整体声誉,得不偿失。
浙江大学计算机学院院长庄越挺:互联网网站页面,如同广阔农村中的一个菜园,各有其主。一般而言,访客进去逛逛无可厚非,但是如果主人在边界立下界碑:未经允许不得入内,这就意味着主人的意愿成为外界是否获准入园参观的标准。Robots协议就是这样一块界碑,它虽然不具法律效应,但是人们都普遍遵循。未经允许入园就参观不仅违反了游戏规则,也有违道德标准。同样的道理,违反Robots协议,等同于违背了搜索引擎的行业规范,以这种方式获取资源是一种不道德的竞争。
哈尔滨工业大学教授刘挺:Robots协议是互联网中网站为搜索引擎所制定的内容抓取规则,体现了业界同行之间的相互信任。如果不遵循Robots协议,将会破其业界信任,使得网站的内容不愿意被抓取的内容被搜索引擎索引,最终伤害用户的利益。而清华大学计算机系教授马少平则指出,如果不遵守Robots协议,肆意抓取网站的内容,网站的信息被任意泄漏,将对互联网的良性发展产生巨大的破坏作用。
百度起诉360
事件详情
百度诉奇虎360违反“Robots协议”抓取、复制其网站内容侵权一案,2013年10月16日上午在北京市第一中级人民法院开庭审理。百度方面认为,360搜索在未获得百度公司允许的情况下,违反业内公认的Robots协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔1亿元。
百度公关部郭彪向媒体表示,Robots协议是网站信息和网民隐私保护的国际通行规范之一,理应得到全球互联网公司的共同遵守。不尊重Robots协议将可能导致网民隐私大规模泄露。
郭彪表示,更严重的是,奇虎360还利用360浏览器等客户端,强行抓取网民的浏览数据和信息到搜索服务器,完全无视Robots协议。这一做法已经导致大量企业内网信息被泄露。2012年年底,百度工程师通过一个名为“鬼节捉鬼”的测试,证明了360浏览器存在私自上传“孤岛页面”等隐私内容到360搜索的行为。
360方面则认为,360搜索索引这些内容页面并不涉嫌侵犯百度的权益,实际上还为百度带来了大量的用户和流量,百度应该感谢360。
案件宣判
2014年8月7日,百度诉360不正当竞争案在北京市第一中级人民法院宣判。法院判决360赔偿百度经济损失费50万元,网站建设费20万元。对于百度要求360停止不正当竞争行为不予支持。
法院认为,同为提供搜索引擎服务致使纠纷,作为搜索引擎服务商的百度和360构成反不正当竞争法规定的内容,是适合的主体。法院宣布,原告主张停止不正当竞争行为的不予支持,但对于民事赔偿给予支持。对于判决结果,原告百度到庭的法务部人士表示听清判决,被告360当事人未到庭,律师并未当庭提出上诉,表示回去和当事人汇报和商量。
文章来源 http://baike.sogou.com/v62040012.htm?fromTitle=Robots%E5%8D%8F%E8%AE%AE