原创文章归属问题如何鉴别?百度搜索是如何理解的

遨游建站
2020-05-05
来源:互联网

原创文章归属问题如何鉴别?百度搜索是如何理解的


要了解原创文章归属问题,在文章发布前,我们需要了解一些常识性的问题。下面,遨游建站先带大家来了解一下这个问题。


1、要正确署名


文章,属于著作权法所规定的文字作品。所谓文章的发表,是指将文章公之于众。而发表的形式则可以多种多样,包括传统的纸质媒介上的发表,也包括在互联网网站平台上的发表,比如微博上发布、BBS论坛上发布、微信公众号上的发布等等。在司法实践中,认定作品的著作权人的主要依据即为作品上的署名人是谁。但是在现实生活中,我们有很多作者出于不同的考虑,往往在发表的文章上署以假名、笔名或不予署名,这就使得维权或诉讼中,认定文章著作权的归属、即谁是作者增加了难度,给我们的维权或侵权诉讼带来了极大的障碍。建议作者在发表文章之时,尽量使用自己的真实姓名,如果确实有其他考虑,可以署笔名或假名,但要留存证据证明权属身份。


2、要标注发布时间


对于两篇内容构成实质相似的文章,法院通常会推定发表时间在后的文章抄袭自发表时间在先的文章,因此,文章的发表时间对于确定是否具有接触的可能性以及在先文章的被抄袭可能性方面都具有非常重要的意义。如下图:


原创文章归属问题如何鉴别?百度搜索是如何理解的


这篇“集团型网站建设需要多少钱?”的文章发布时间为2020年1月10日。接下来,我们再来看看下面的图片:


原创文章归属问题如何鉴别?百度搜索是如何理解的


这篇“集团型网站建设多少钱?有什么特点(点击阅读)”的文章发布时间为2019年8月26日。两篇文章,虽然标题不一样,但内容基本上没有变化,两者一对比,哪个是原创?哪个是被转载的?一目了然。


3、仔细阅读平台规则


在文章内容发布平台发表文章,要仔细阅读线上网站经营者发布的格式合同条款,注意审核有关文章授权或转让条款,避免文章的相关权利以合同方式授权给平台方无偿使用。


4、引用需要标注来源


引用他人微博或评论文字要标注文字来源,并要正确对所引用文字的文章作者署名。


上述内容是关于文章发表之时应注意的一些问题,接下来,我和大家交流一下,在互联网环境下应如何做好维权的准备。


互联网具有虚拟性,同时又具有内容传播的快速性和广泛性,它能让我们的原创文章迅速得以广泛传播,但同时也能为侵权人提供便捷的获取渠道,并能让侵权文章得以遍地开花。作为权利人,我们一旦发现侵权文章应该如何维权呢?下面,我将就不同的侵权主体的网络侵权行为做具体分析:


1、网络文章抄袭行为


网络文章抄袭行为,主要指侵权人将原创者的文章部分内容或全部内容进行使用,但未标注引用文章的来源和出处,并再次以自己的名义在互联网络公开发布的情况。针对此种侵权行为,要第一时间对侵权行为进行有效取证和存证,并以提起著作权侵权之诉予以维权;


2、文章内容平台转载行为


文章内容平台转载行为,是指以对文章内容进行经营和运营的内容发布平台对原创文章进行转载和使用的情况,比如世纪超星公司、硕博士论文发布平台CNKI、书生电子公司等阅读平台。这些平台多以文章的有偿付费模式进行运营,在发现这些平台侵权行为之时,应当首先对付费阅读的模式以及下载量等进行取证,以作为损害赔偿的主要证据。


3、第三方信息存储平台转载行为


第三方信息存储平台转载行为,是指侵权文章通过以向网民提供信息存储空间为主要模式的网络平台进行传播的网络侵权行为。微博、微信公众号、知乎等均属于第三方信息存储平台,对于此类平台上转载侵权文章的侵权行为,为第一时间固定侵权行为,权利人可采用现在通行的电子取证软件进行固定证据,之后可通过向平台方发送律师函或线上投诉的方式对侵权行为进行制止,如在投诉之后仍未有效制止侵权行为,权利人可以通过向法院提起诉讼的方式进行维权。 以上信息来源于汤加律师的文章。


原创文章归属问题如何鉴别?百度搜索是如何理解的


百度是如何辨别原创文章的


要了解这个问题,首先,我们要明白seo中的两个关键词:“原创”和“伪原创”。

原创:简单地理解就是第一次在网络上发表的内容,以前没有出现过的内容。

伪原创:就是从网站找来资料进行二次加工,二次修改之后的内容,如修改标题,修改内容,增加些文字或者减少一些文字等。


百度搜索引擎对于原创的判断是如何进行的呢?

主要由以下几个方面的因素决定:

快照日期

蜘蛛抓取日期

页面外链的多少

文章修改的程度

举个栗子,如果我在我的网站更新了一篇文章,搜索引擎来到这个网站、并且抓取到了这篇文章,放到数据库,并且在收录数据库中没有发现类似内容,那么,就会被认定是原创。


1、文章被转载


如果刚发表的一篇文章被其它转载了,那么谁是原创呢?那要看谁更先被搜索引擎抓取到,也就是更新周期的问题了。如果在自己的网站发表被其他网站转载,如果先抓取到前者站,那么归a,如果先抓取b站,那么原创就归b站了,所以不是说你先发表了,原创就是你的,这个得看搜索引擎什么时间收录了你的内容。


2、文章收录


文章必须被收录,如果没有被收录,肯定是在搜索数据库中石找不到的,搜索引擎根本就找不到这篇文章,更谈不上什么原创了。


3、访问时间


如果蜘蛛先访问了B站呢?

3.1、当然权重给B站,一般的情况下都会这样!

3.2、如果B站转载的文章带了A站的原文章页面链接呢?

3.3、这就很明白了,刚收录的时候,如果排名,两条结果一起出现,有可能还是B站的排名好一点。

当然,文章转载次数多了以后,A站的链接越多,对A站的文章越有好处,排名会慢慢变成A站在前面。

如果另外转载的文章带的是B站页面的链接呢?它们如果判断不好,就变成了一个链接流行度的比赛了。

不过,如果都有很多外部链接,并且相差不大,那么判断的规则应该回到原点,谁先被收录谁就是原创。


4、伪原创


伪原创也会被认为是原创?

大多时候是这样的,搜索引擎蜘蛛不能明确分别这些东西,因为它的思维太程式化了。如果你的标题改过,文章的段落改过,那么蜘蛛将很难确定这篇文章是否有过收录,也许它可以确定有部分内容是重复的,但它也不能因为这些而将这篇文章确认为是转载!当然,随着搜索引擎程式设计的提高,应该会有一个相似度的东西出来,比如文字内容相似度超过百分之几就会被认为是转载。

另外提几个建议:

4.1、如果你的站是新站,权重不高,如何让蜘蛛首页找到你的页面并放入数据库?其实很简单:用网摘、bd收藏这些工具让蜘蛛更快的找到你的页面!

4.2、大家都有过建议,就是加上自己的版权及内容页面的地址,别人采集的时候你就爽了,收录虽然不会快,但最后链接多了,你依然是原创内容。

4.3、发表文章等到自己收录以后再去其它的站点进行发表,同时加上自己的原文地址,这种办法很有保障!


5、快照日期


快照日期显示时间最早的,一般就是原创了吧!

不一定,这个说法要在一个更新周期之内,比如说文章发表后一周内,快照时间越早的地址将越有被认可为原创的可能。

但如果文章都发表了几个月了,说不定搜索引擎已经重新获取过快照了,快照的日期就变了!


还有其它的可能吗?有,一般比如百度收录,他可能会有一个收录的数据库,经过过滤后,收录的内容才会到搜索结果里来。在这个期间就有一些问题了,比如A站首次发表,B站转载。蜘蛛先访问A站再访问B站。而后可能先把B站的结果放出来了,而A站还在数据库里。


所以说,搜索引擎没有收录并不表示搜索引擎蜘蛛没有访问过这些内容,也许在搜索引擎的库存里已经有记录了,只是你查的时间没有放出来而已,就像25号才放出来的内容,但是快照是20号的,这就是搜索引擎的库存内容,同时这也是检验原创的核心时间点。


这种情况一般出现在新站与老站之间,A站发表,B站转载,但A站在搜索引擎的信任度并不高的时候。不过只要是A站先被访问到的,原创权还是A站的,这是最难分出来的情况,因为我们不知道蜘蛛先访问哪个站,除非你知道两个站的网站空间日志内容,能看到搜索引擎对两个页面的访问时间。


是否原创其实根本就没有明显的界限,因为,有些东西它本身含有的知识点都是重复的。举个例子,写“如何做西红柿炒鸡蛋”的文章,虽然会有千奇百怪的写法,但是,如果将1万个人关在小屋里,给他们笔和纸,让他们写,写完上交后。不难发现,其中会有几篇内容是相似的!如果我们作为审阅人,在不知情的情况下,会认为这些文章中有抄袭的,如果让搜索引擎来看这1万篇“如何做西红柿炒鸡蛋”的文章,又会如何呢?


在搜索引擎中,信息量十分的庞大,它又是如何辨别原创的呢?其实这是一个十分有趣的问题。百度判断文章的原创程度会有2次筛选:一次是蜘蛛爬行抓取文章时,对抓取数据的重复检测;一次是在搜索引擎读取文章内容的时候,对文章内容重复度的检查。


对于第一次筛选,是按照数据的相似度来判断的(包括了代码)。搜索引擎会根据无数的文章资源来判定一个相似度百分比(因为网络资源不断地更新,这个判断标准也不断的变化),超过一定的相似度,文章就会被pass掉。第一次筛选相对而言,并不严格。


第二次筛选,则是针对文章的主要内容(不包含代码),筛选的方法也是根据相似度来判断。搜索引擎它会把网页中没用的部分去掉(代码和一些没用的感叹词、介词等),通过分词,将一个页面的内容分成很多个关键词(这些关键词便是这个页面的核心内容),然后把页面中的关键词存储在数据库中,然后会通过数据库资源的对比,来决定文章的原创度(就像指纹一样,如果指纹完全符合,那就说明这个指纹是你的,对于文章而言,数据相同,便是抄袭的)。


对于第二次筛选有好处也有优点。通过去掉没用的词,如“的”、“吗”等,再来对比会更加准确,但是同样的,一个页面除了文章外,还有很多其他的不同内容,因此,判别起来也会有写难度,甚至会造成抄袭文章也会收录的现象。


搜索引擎每天都会获取大量的数据,因此,判定文章原创度的标准也在浮动,因此会出现文章收录后被吐出来,或者没有收录的文章又被收录了。


原创文章归属问题如何鉴别?百度搜索是如何理解的


关于原创文章方面的一些常见问题


1、为什么相同的文章发在不同的平台都会被收录?


这个问题不难回答。我们再看看上面举得写“如何做西红柿炒鸡蛋”的这个例子。对于搜索引擎而言,这样的文章里面的关键词几乎都是一样的(鸡蛋、西红柿等)。但是,这1万篇文章是每个人动手写的,没有抄袭的可能,但是因为作法相同,而出现了文章相似程度极高(指纹几乎都是一样的)的情况。面对这种情况,搜索引擎也会有自己的处理方法:把收录条件降低。这也造成了,伪原创的出现(伪原创文章收录相对而言还是不错的)。


除此之外,就算是抄袭文章,文章页除了文章外,还有很多其他的内容,这些都会是影响文章原创度的因素!另外,百度的数据库极为庞大,一天就处理数百万的文章,会出现反应迟缓的现象,造成文章先收录后吐出的现象。


还有比较特殊的一点是,搜索引擎的目的便是为用户提供有用的讯息,会尽可能的提供更多的搜索结果来满足用户的需求,特别是对于一些有时效性的新闻,搜索引擎会希望这些内容更快的传递,所以会收录一些内容相似、甚至内容完全一样的文章。


以上种种因素都会造成搜素引擎收录两篇几乎一样的文章的现象出现。


2、为什么文章收录后过段时间又没了?


如果是原创文章,这种几率很低,也并不是没有。如:(1)你的文章被高权重网站采集了(这种情况联系对方的站长)。(2)伪原创。对于伪装创,收录后过段时间就没了,这是正常的,对于百度而言,每天都会采集大量的信息,因此决定文章收录的数据库指纹种类也不断的变化,所以会出现此种情况。


3、为什么权重越高的平台文章会收录得越快?


举例子来说,买东西我们习惯性的看品牌?因为我们会认为该品牌的东西质量好。搜索引擎也是一样,对于它默认的一些好的、大型的网站,会默认为这网站的内容好,所以,蜘蛛爬行的就会频繁,甚至有时候,这些网站纯粹的粘贴、复制,也会比小网站收录快很多。毕竟小网站流量有限。


阅读1334
分享
写评论...