第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

由8.25百度大更新看SEO如何应对之文章内容篇(2)

时间:2012-08-31 09:36来源:网络 作者:seozhao 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
中国汉语在句子结构中,无非是主、谓、宾、定、状、补,而从词性上来说,无非是实词与虚词两大类,其中实词为名词、形容词、量词、代词。虚词包含

  中国汉语在句子结构中,无非是主、谓、宾、定、状、补,而从词性上来说,无非是实词与虚词两大类,其中实词为名词、形容词、量词、代词。虚词包含副词、连词、介词、助词、叹词、拟声词。写到这里,相信经验丰富的seo们应该晓得,咱们之前做伪原创的时候,基本针对的是实词,因为虚词基本做了伪原创也不怎么管用。伪原创关键在个伪字,我们欺骗百度,让百度误以为非原创为原创,故而称之为伪,而百度这次是将伪识别出来。

  

伪原创态度解答

 

  (图5)

  图5是百度官方对伪原创的回答,正如大家所看到的那样,百度没处理,非是百度态度上不处理,而是技术上未能实现处理,通过话语间,相信大家也明白了,伪原创对百度而言和其它非原创例如采集,在策略上无区别。

  那么大家试想一下,百度若想将伪识别出来,就必须针对seo的一些操作进一步锁定精确化的原创的特征,那么其必然是由以前判断所有的实词改为判断部分实词。那么在名词、形容词、副词、量词、代词中,要具体挑哪几种呢?

  代词本身也没几个词,自然不能作为特征来识别。

  那量词呢?大家请看下面的截图。

  

量词态度

 

  (图6)

  图6为百度官方的回答,由此可见,百度针对不同行业其对分词结果的处理方式不同,而且对量词,百度较为重视。由此可见,量词是百度识别原创的特征之一。

  那其余的实词呢?名词经常作为句子主语,是具体的事物,自然应该作为原创的判定标准。而形容词用于修饰事物,往往通过不同的形容词的表达,句子所表达的意义就不同了,理应作为判断原创的特征之一,但Mr.Zhao发现,此次更新,形容词被剥离出原创判定的特征,或者说其影响被骤然降小。而这也是这次误伤的主要原因。

  总结一下,Mr.Zhao认为,这次百度针对内容更改的算法之一,就是蜘蛛抓取完页面后,经过除噪得到了一个文本,对文本中的话在进行切词的时候,针对句子的主谓宾进行单独提取,同时配以量词,来与其它页面进行比对。

  比如“小明开心的去打酱油”与“小明无聊的去打酱油”,这句话在以前会被识别为两句话,而如今会被百度识别为一句话,因为其比对相似度时,全部切分为了“小明”+“打酱油”。

  咱们跳出搜索引擎,站在自身的角度来思考,如果你自己写一篇文章,而且是言之有物的对用户有帮助的文章,那么你整篇文章按照主谓宾的方式提取出来之后,必然在互联网上应该找不到一样的。

  但倘若仅仅是这样操作,也不会有大范围的误伤,可是如果加上比例,则结果就出来了。而加比例也是百度为了识别有人用多篇文章凑出一篇文章的操作。百度设定一个百分比,倘若你文中主谓宾切出来后,有一定百分比与其它重复则判定为非原创,则结果就是先今百度的搜索结果。

  但这种设计本身,就必然会产生误伤。正如我前文所述,形容词在有些时候,会决定句意,完全剥离必然不符合用户体验。同时,若是一些知识型的网站,本身知识点就是重复的,只不过在由知识点推理出结论的时候,不同的文章其结论不同。而对很多结论的推导过程都是由定状补部分完成的,这样这些用户体验很好的知识型文章会被百度误杀。

  相反一些垃圾站,由于其原本伪原创的时候无意间动的是主谓宾的结构,进而躲过了这次算法更新,此消彼长,进而一些站点挤进了百度首页。

  针对于此,百度所做的防范措施正如本人现在在《由6.28百度K站 看百度SEO的未来趋势》一文中所写,用域名年龄作为一些站点最后的救命稻草。

  但是这样,就会损伤一些真实的原创文章了,下图是百度官方的说辞。

  

百度的态度

 

  (图7)

  图7是百度针对关于原创转载的官方回答,由此可见百度对于原创的态度并不是绝对的制高点地位,而往往有时是劣于被知名站点转载后的文章。

  那么这套设计的缺陷就自然而然的显现出来了,一些小型域名年龄不长的提供原创文章的站点会在此次策略更新后受到误伤。

  下面我再回过头看看上文中所述的百度的改变,其中一条为预告。且问大家,百度历次更新前,有过预告吗?百度大规模K站不是一次两次了,为何这次要提示公告呢。在这里Mr.Zhao不禁想起来Google用于麻痹Spammer的专利,当然这里并不是说百度遵循此法来麻痹Spammer,而是说,搜索引擎算法已经像那些TVB的后宫电视剧一样,开始了阴谋论与心计。

  首先挑选此次更新的主要行业,医疗与seo,医疗本身就是百度最大的收入来源,借此机会扩大自己的收入,同时不必担心对医疗的不好影响,有一个一个医疗seo团队领着各自老板的工资,完全不必担心由于这次更新引起该领域内被人为创造出来的数据量的下滑。而seo行业,我想我就不必多说了。

  然后先预告一下,紧接着算法上线。百度自知这次算法升级具备天生缺陷,而弥补这些缺陷的唯一途径,就是上线规则后收集反馈数据进行改进。还记得我在《由6.28百度K站 看百度SEO的未来趋势》一文中曾指出,百度在6月K站稳定后,仍有一些词其排名变化几乎是几个小时一个变样,当时百度其实就是在收集数据为下次更新做准备,而这次其数据收集工作范围更大,不在是个别词,而是整个行业了。

  最后百度深知这次更新有先天性问题。本人博客就是例子,上文中我贴出博客的网址,就不怕各位读者朋友们去查证,看我文章质量是否真的是高质量对用户有帮助的原创,看我外链是否有作弊。首先此次更新首先在判断上波及了我的原创文章,同时我站内多篇文章被各个大站所转载,进而导致我站点降权、被K首页。而像我这样,利用业余时间认认真真写文章分享的人,却恰恰是百度希望留住的内容制造者,因此百度此次提前预告,并精确指出要惩罚的对象,要我们自身明确自己是被误伤,同时百度保留了索引数据,不像6月那样直接索引归0,这都是为了后面算法修复奠定基础。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕