搜索引擎能不能判定文章原创性

本文作者:
5年前 (2012-05-14) 沙发

我一直以来的观点都是搜索引擎无法判断内容的原创性,但是从来没有阐述过各种缘由,看到网上不断有人强调原创文章的重要性,我决定推翻这种说法。当然,我本人希望互联网这个大环境能够保持一种原创的氛围,但是大环境同样告诉我们,老老实实地写文章并不不能显得你一枝独秀。

要说原创判断的问题,就不得不扯到各家搜索引擎的技术实力。Google毫无疑问是技术最为领先的搜索引擎公司,但是至今,我们未有从Google看到一种真正有效的方式或者结果,抄袭文章依旧存在,伪原创更是满天飞舞。

互联网上的原创判定还遥不可及

一篇原创文章发表在网上,首先要看它被发表在哪里。如果发在一个新的或是权重很低的网站上(下称网站A),而文章短时间内又被高权重网站(下称网站B)抄袭去,结果是搜索引擎先抓到抄袭的页面,过了一段时间才去抓真正的出处,那么搜索引擎会认为哪个网站在抄袭?最快最有效的方法,是根据抓取时间做判定,但是显然这样有失公允。还可以通过文章发布页的Timestamp做参考,判定网站A为出处。但问题又来了,搜索引擎怎么知道网站A的timestamp不是假的?

这么绕下去,就像先有鸡还是先有蛋一样不可能有定论,况且我还是说的最简单的情况,通常实际情形都是N个网站同时抄。

接下来,假设搜索引擎会通过内容对比来判断文章的原创度,可问题又来了,搜索引擎以何种机制启动判断程序?显然,它不可能无时无刻都开着”判定程式”去抓取网页,再退一步说,就算它开着,每抓一个页面就把内容扔到那无法计数的页面堆里面去对比有无同样的页面?继续往后推,就算搜索引擎财大气粗就愿意为了一个页面大动干戈,那相似度到达多少就算抄袭?要知道页面上不光有抄袭内容,多多少少还有些别的东西,融合下来,相似度难以到达100%,写论文还有引用相同材料的时候,搜索引擎更无法断定那就是抄袭。

总结下来,搜索引擎要想判断原创性,至少具备以下3个条件:

*对所有网站一视同仁,能够第一时间抓取每一个网站的更新

*有足够强健并且多的服务器做分析对比

*有一套精确的匹配对比算法

即便搜索引擎某天具备了上面三种能力,我还是怀疑它们会不会去判定原创和抄袭,因为搜索引擎的本质是为用户提供最为匹配的搜索结果,一篇文章被反复地转载说明其价值较高,至于出处在哪里,是不是原创,对99%的用户来说均不具备意义。任谁也不会花很大代价做一件意义不大的事情。

结合国情来看,国内最大的抄袭群体恰好是那些高权重网站,包括综合门户,专业门户,基本就是一个抄袭大杂烩,更有的大网站压根就不出产原创内容,平日里全靠转载为生,考虑到大型网站与搜索引擎基本是唇齿相依的局面,搜索引擎更不会也不应该去判定抄袭。

还要不要原创?

株洲SEO认为原创是一种态度,也是网站获取关注的根本。不过,我们同样也要学会抄袭,互联网的本质是分享,如果别人的内容能够帮助网站丰富主题,转载也是理所当然。至于给不给出出处,这是素质问题,别无其它

相关文章

发表评论