第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

关于百度对网站内容的识别

时间:2013-09-13 19:50来源:湖北旅游景点 作者:跌名 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
上个月开始,我制作了两个旅游信息类网站,目前网站收录良好,快照实时更新,但一直尚未有排名。我个人分析了一下,可能在网站的内容上还存在一些问题,那么今天

  上个月开始,我制作了两个旅游信息类网站,目前网站收录良好,快照实时更新,但一直尚未有排名。我个人分析了一下,可能在网站的内容上还存在一些问题,那么今天在这里以二一网()为例来跟大家讨论一下关于百度对网站内容的识别这一个问题。

  一、百度对网站内容原创度的识别

  今年5月份开始,百度推出了百度原创火星计划,很明显的一个标志就是在页面的索引前加上了一个时间。百度方面的说明是,在原创内容上面获得优待方式上只要满足了用户需求前提下,给予优先展示,另外,展现上,给原创内容还进行标记。但是,根据我个人实际操作各部分站长的反馈来看,大家都感觉百度的原创识别技术不高,包括笔者在内。

  拿二一网来说,有时候自己写的原创文章,收录了,但是并没有原创内容的标记;有的时候非原创的文章转载过来,却有原创内容的标记。当然,出现这种情况可能是百度本身在原创内容的识别上数据库不够强大,后台内容比对过渡还不够完善。从专业学术的角度来看,如果一篇文章里有连续的30个字与其他地方的文章相同,同时引文不添加引用标记,则可以认定为抄袭。

  与百度原创火星计划相相似的谷歌原创计划运行这么长时间以来,也一直没有取得较好的效果。个人认为,现在更多的内容识别可能更依赖于百度权重而已,与文章内容并无太大关联。

  二、百度对网站内容排版格式的识别

  不知道大家有没有这样的体会,建好一个网站后,能过网站采集功能,从其他相关网站采集回来,对文章格式进行处理后,再发布到网站上去,百度也能给予原创内容的标记。

  原本以来,百度蜘蛛抓取时,只会抓取文章正文内容,丢弃代码格式。但是,反过来一想,百度需要识别一些使用格式来做黑帽SEO的手法,从这一点需要上来说,百度不会丢弃网页代码,在抓取时会将代码与正文一同抓取。

  那么,有了上面的分析,我们通过在现在文章上添加一些新的格式、排版就能实现文章的伪原创了吗?对于这个问题,我现在还不能完全给出结论,但可以肯定的一点的是,文章排版排除用户体验的因素后,对百度的抓取还是有一定影响的。

  三、百度对网站内容页面中时间的识别

  百度快照超前和快照滞后这两种情况不知道大家有没有见过,但是我在实际操作过程发现这种情况依然存在的。先来解释一下这两种现象吧:

  百度快照超前,就是百度快照时间超过了当前时间,举个例子,今天是2013年9月12日,但是你的网站中有一个网页快照是2014年9月12日。百度快照滞后则正好相关,比如你发布了一篇文章,发布时期是2013年9月12日,按百度目前的处理情况来看,百度快照应该是2013年9月12日,但是现在你的快照时间是2012年9月12日,而快照时间点上,你的网站还没有上线呢!这又是一种什么情况呢?

  通过分析整理,发现是百度对网页中时间的抓取处理上存在问题。比如,2013年9月12日发布了一篇文章,但是这篇文章的发布时期上却写的是2012年9月12日,那么就有可能出现快照滞后的现象。快照超前则相反。当然,出现这种情况也都只是可能,并不一定都会这样,这也暴露了百度在索引中存在的一些问题。有兴趣的同学可以去试验一下,在快照时间与关键词排名方面可以研究一下。

  文章首发A5,转载请注明出处:二一网 。谢谢。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕