百度又一轮更新,动了不少站点,距离上次大规模K站,时隔两个月,这次一大特点就是很多原创站点受到了波及,其波及面比上次更大了,本人的博客也在此次波及中不幸被K掉了首页,那么很多站长们不禁要问,既然是尊重原创,那为何我的原创站会被惩罚?而那些垃圾站却反而没事呢?通过近期观察我手里以及朋友手里的一些站的反应,Mr.Zhao在这里做一下揣测与分析。 在发表观点之前,我先声明,本人绝不是百度的托!我的博客纯原创、凝聚了我的经验与心血,不照样被K了首页么。上次本人的文章《由6.28百度K站 看百度SEO的未来趋势》被各个站点转载后,一些比较激动的站长们到我的博客上宣泄不满,可是你再怎么宣泄不满,再怎么迁怒于我,百度该更新的还是会更新,如今不就是再次更新么。我们seo要做的就是适应百度的变化。 那么我们先回想一下,在这次更新前后,百度有哪些变化。 1.进入8月份后,出现大量站点首页快照不更新,其中多表现在医疗与seo行业。 2.Lee在8.22发布更新公告,将针对胡乱采集与超链接作弊上线新的惩罚规则【本文主要讨论新上线的对于内容部分的规则,不涉及超链接,超链接部分会在今后的博文中再讨论】。同时Robin表示,经过求证后,新规则尚未上线,仅仅是先发了公告。 3.8月25日,很多站长们感觉到了新的规则引起的变化,众多站点被惩罚、降权、排名消失。其中有百度所要打击的采集站,但也不乏像本人博客这样纯原创的站点受到波及。同时一些关键词的搜索结果页面,有了翻天覆地的变化。这主要集中在医疗以及一些品牌词上。 那么百度的变化仅此而已吗? 其实不仅仅如此,还有一项变化,倘若你不细心,可能就会被忽略。就是这次百度对站点的态度与6月那次更新的不同。 由于Mr.Zhao从事的是医疗行业,所以手中有一些医疗站点,下面为各位看个截图。
(图1) 上图1为本人手里的一个医疗站点,此站点5月时匆忙上线后,主做某一个病种词,经过本人优化,在6月的时候病种词的相关词已到百度首页(病种词本身首页明显被百度控制了,全部为第三方平台的站点的内容页)。但之所以说是匆忙上线,是因为模板始终都没有做出来,一直用的织梦首页,不够漂亮,导致用户体验不好。而在7月2日,被百度K掉,在百度站长工具的后台中,大家也看到了索引量降为0。 这段期间,我一直观察这个站,虽然后来更换为用户体验好的模板,但依旧没有恢复的迹象。这个站的文章虽说都是伪原创,但是是通过精心伪原创的,而且对用户都有帮助的。但既然还没有恢复,那自然在6月上线的惩罚机制中,将其认定为对用户无帮助的文章。也因此,我一直在想站在程序的角度,其如何判断文章是否对用户有帮助?因此我揣测出一个可能性,但觉得这么做弊端太多,但这次百度8月上线的规则让验证了我的想法,让我不得不说,百度你太狠了。
(图2) 上图2为本人博客在百度站长工具后台的截图,这里我将网址打出来不是做广告,是我后面分析需要用到具体网址。 本人博客文章绝对全部为原创,而且我的文章都是我根据我的从业经验而写的技术文章,而非那种百度一抓一大把的垃圾文章,绝对对用户有很大帮助的。我的外链也全部来自于其它站点转载我文章时的版权链接以及回答别人问答时签名中的介绍。我的问答回复全是是非常有意义的帮人解决实际的seo问题,发在seowhy上,有专门的版主审核,我的回答的被采纳率极高,不是那种为了留签名而做的垃圾回复。友链更是一些喜欢我文章的朋友和我交换的,这点在我首页被K后仍有不少朋友坚持不撤换掉我的友链,就能看出来。可以说我的博客从未做过扰乱搜索引擎的行为。 就是这个完全符合规则的博客在8月25日被K掉了首页,并K掉了50%以上的site数值。
(图3) 由上图相信大家就能看出来我的博客在此次算法更新上收到了极大的波及。但我不是在抱怨,而是希望大家看一个点,比较一下图1与图2的区别,大家会发现在6月K站的时候,站点被K则索引量也跟随相应的变化降为0,而在8月更新的时候,索引量未随着site数值变动趋势而改变。也就是说百度数据库中仍有你的数据,只不过不予排名,甚至不放进排名被选的缓存区中。 这就是我要提醒大家的一点,这个表明百度自身对算法更新的不自信。这次影响的绝大部分医疗站,遭遇要比我的博客要好,首页依旧幸存,但是排名全部丢失。大家想一下,若是百度对自己算法足够有信心,那么就像LEE说的,他们打击的是用户体验不好的作弊站,那作弊站是不是应该像6月那次处理方式一样K掉,而不是继续保存数据调整其排名。 那么为什么这么做?这次算法问题出在哪里? Mr.Zhao认为,在站内方向上,主要出现在两个字上,这两个字就是原创。即便是人工审查,我们有时候也很难确定原创与改写,那么搜索引擎作为一款程序,即便其有庞大的数据量作为基础,其在判断原创文章的时候,也必须有一个或若干特征辅助程序将其识别出来。本人在《搜索引擎工作的基础流程与原理》一文中,曾阐述搜索引擎对文件的保存形式。在此我再将其重复一遍。 当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。假如蜘蛛爬取的页面的URL是,而搜索引擎在此页面经过上述操作后提取到的关键词集合为p,且p是由关键词p1,p2,……,pn组成,则在百度数据库中,其相互间的关系是一一对应,如下图。
(图4) 那么搜索引擎在判断文章是否为原创的时候,其处理的对象必然为这篇文章在分词后的关键词集合p。那么我们一起来揣测搜索引擎寻找的判定特征。 (责任编辑:admin) |