其实看到这个标题,大家会想到这个没什么可争议的事,经过我的几天发现,我觉得百度在判断原创来源时还不够成熟,百度在站长资讯平台上也发布了原创那点事,成立原创项目组,打持久战,并指出,原创识别“起源”算法,可是这种算法还不够成熟,所以我来谈谈百度对原创的那点事吧,站长也要注意这个问题,不要让其他抢了你的劳功。 我在a5站长网投过一篇软文,但是过2个小时后,发现在文章审核成功了,但是我一查收录,竟然没有被百度收录,于是我在百度搜文章的标题,我大吃一惊,原来文章在其他网站收录了,肯定是其他网站采集a5站长网的文章,然后再发布,我在想,百度会识别到谁是原创吗?于是我做了一个实验了,只是要等百度收录a5站长网首先发布的文章,才能定结论。第二天,我查了下收录,a5站原创的文章被百度收录了,但是我在百度搜索标题的时候,排在第一位的不是a5站长网,而是另一个采集a5文章的另一个网站,再来看看发布的时间,a5网发布的时间是2013年5月27日11点36分,而采集站的站的发布时间是2013年5月27日13点14分,可是它为什么排名在前面呢?大家可以看看图片,百度收录了a5原创的那篇文章,但排名却不是第一,如下:
其实百度是认为采集站是原创的,为什么这样说?大家可能觉得不是有发布时间可以判定谁是原创吗?其实百度不会这样认为的,因为发布时间有的系统可以随便修改,可能会作弊,所以百度不会把发布时间作为主要认可原创来源的参考因素,那是哪些方面呢?百度官方也指出:"一直致力于原创内容的识别和排序算法调整,有许多因素都会影响原创算法识别,甚至导致判断出错。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序"。 不过百度也给出一些建议,我们也可以去ping服务,因为百度在认可发布时间时,都是自身服务器爬取的时候,ping服务就是基于XML_RPC标准协议的更新通告服务,是用于网站在内容更新时通知百度蜘蛛及时进行抓取、更新的方式。百度蜘蛛在成功接受到ping以后,会立刻进行抓取并更新。使用ping服务,可以让百度蜘蛛在第一时间抓取到您博客上的新内容。这样达到让百度第一时间收录你的文章,这样更有利于百度原创的识别。 最后,也希望站长们重视原创来源这件事,也给a5站长网的一些建议,在文章发布的出来时候,第一时间通知百度来抓取新的内容,有利于早日收录,利于原创算法识别。还有一些SEO人员,把别人的原创文章复制,后面把原作者的名字和网址替换成自己的网站,或者去掉原创作者的名字和网址,其实这些百度都可以识别的,不要以为自己很聪明,百度在官方也特别指出了打击这样的不尊重原创任者知识版权的网站,那个采集站之所以能排第一,因为他这些都保留了原创作者的名字和网址,尊重了知识版权,有利于用户了解知识正规来源的好处。希望站长们传播知识时,尊重知识版权,不要耍小聪明,最后的结果也是对网站自身不利。本文由中国注册建造师网()原创,A5站首发,传播知识,尊重知识版权,谢谢! (责任编辑:admin) |