搜索引擎如何判断文章的原创度

　　总有人在说自己的文章被抄袭，然后抄袭者收录了，自己的却没有被收录，我曾经我也这样想，甚至我使用屏蔽右键、屏蔽复制等手段来克制抄袭者的恶意竞争行为，对此，我今天我有不同的看法，也有不同的观点。

搜索引擎如何判断文章的原创度

　　未收录不代表未抓取

　　确实，为了SEO的发展，自己辛辛苦苦写了两篇原创文章，被一个大型网站抄袭秒收录，而自己的站点却不收录，这是一件非常让人尴尬的事情，那么真的不收录，就不是原创了吗?

　　很多朋友是这样认为的，自己的文章没有被收录，而抄袭者的却收录了，所以百度判断自己抄袭了别人的文章，所以自己权重也就一直上不来，排名一直没有。其实这是一个错误的观点，我曾在百度排名规则的文章中提到，百度收录是需要经过抓取-识别-释放这三个流程。其中在释放的流程中，需要判断整体网站的质量，当整体网站质量过关，收录相对较快，当整体网站信誉度没有达到百度的标准，百度将会暂时保留你的文章，不被释放出来。

　　不被释放出来，但是已经经过了抓取和识别这两个流程，在这里特别的说一下抓取的流程，当网站建立以后，提交到搜索引擎，搜索引擎基本每天都会来抓取，大家可以试着安装百度云加速后台可以统计出抓取的页面，如果抓取不够，也可以在百度站长平台中设置抓取频率和sitemap自动推送，这样抓取的是完全没有压力。设置方法如下：

　　打开【百度站长平台】点击左侧导航【我的网站】-【站点管理】-【添加网站】-输入网站域名，根据自身条件验证网站。

　　然后点击左侧导航【页面抓取】-【链接管理】-提交方式选择【sitemap】，然后将自己的网站地图提交上去，更新时间更具你网站的更新时间来设置，比如网站每天更新一篇文章，那么就填写1天，论坛、门户可能添加的比较多。

　　另外在把sitemap地图写到robots里面，抓取基本是完全没有问题，那么接下来就进入识别系统，每一个页面抓取了，就一定会进行识别对比，是否会出现重复，与互联网的内容重复度有多少，从而判断出页面的原创度。那么在已经判断出原创度的时候，再来谈收录，先收录谁不代表谁就是原创了!

　　如何判断文章的原创度?

　　并不是你网站有文章，是你自己写的，就一定会被搜索引擎认为这是一篇原创文章，因为其中还有很多技术方面的问题，搜索引擎还未能解决。

　　记得我曾经在一个网站每天更新一篇文章，一篇文章的字数只有100字左右，但是文章页面非常简单，简单到整个页面没有JS、CSS、HTML代码，只有文字，但收录却非常好，而有一些网站，用JS、CSS、html代码把网站修饰的非常漂亮，但是发布的文章却不收录，这让我开始觉得代码与原创度有直接关系。

　　我忘记了，在哪里看到过这样的一句话“搜索引擎只能识别200KB以内的内容”，对于一个网站而言，200KB算是很大了，我的博客只有30KB左右，所以我博客在搜索引擎中抓取是完全没有压力，如果你的网站有超过200KB，我觉得你是应该要优化了。

　　这和网站的文件大小有什么关系呢?好，我们来看看，搜索引擎在抓取一个页面的流程是从头到底，任何一个页面都有一个共同点，那就是头部一样、底部一样，唯一不一样的就是文章内容，那么搜索引擎在抓取头部有10KB左右是一模一样的，到中部文字的时候只有2KB是不一样的，而底部又有10KB是一模一样的，那么还会认为这是原创文章吗?

　　这里还得给大家灌输一个理念，那就是搜索引擎是不认识字的，他只有把这个汉字放到他的数据库去对比，当一对比一个新文章页面的时候，总共22KB的页面，居然有20KB一模一样，就算是写了原创文章，也会被列入到伪原创的列表中去。

　　经过我3年的SEO优化加测试，我对原创文章的判断得出了这样的一个理论，当一个页面比较大的时候，一个页面的不同点至少占页面的1/3，那么写多少文字呢，比如你页面有10KB，那么至少的写3KB的文字，剩下的7KB相同，这些才不容易被列入到伪原创的列表中。当然，这是我个人得出的理论，并没有完全的证据和理论来证明。

　　为什么抄袭者的网站更容易收录?

　　那么还有一个问题来了，既然要抓取、识别、释放这么复杂的流程，为何抄袭我们网站的内容还先收录呢，这是大家很纠结的这个问题，我也纠结了很久，直到有一天，我自己做了一个平台，每天让自媒体人发布非常原创内容的时候，我才总结出来，为何越抄袭越容易收录!

(责任编辑：admin)

搜索

热门标签:

搜索引擎如何判断文章的原创度