第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

百度原创文章与转载检测算法

时间:2012-12-24 03:31来源:网络 作者:xike110 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
随着互联网的飞速发展,网络中存在大量重复的资源文件。例如,大多数用户会将其希望分享的资源文件上传至网络,对于热门的、或者受欢迎度较高的资源文件,会被许

  随着互联网的飞速发展,网络中存在大量重复的资源文件。例如,大多数用户会将其希望分享的资源文件上传至网络,对于热门的、或者受欢迎度较高的资源文件,会被许多用户上传至网络,这必然造成相同的资源文件被重复上传。同时,不同的网站也会转载、引用以及提供下载相同的资源文件,这进一步扩大了网络中重复资源文件的数量。

  然后,搜索引擎通过“网络蜘蛛 (spider)”、“网络爬虫 (crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取网页时,对抓取到的网页不做区分,这些网页中可能包括指向相同的资源文件的网页。如果不对这些指向相同的资源文件的网页去重,搜索引擎在抓取这些网页后,需要大量的存储空间来存储这些网页,并且还需要分配更多的检测设备对存储的网页进行后期检测。

  因此,如何提供一种基于内容特征信息对指向相同资源文件的多个链接进行去重

  处理的方法,成为目前急需解决的问题之一。

  所述第一链接集中第一链接的抓取时间 ;

  所述第一链接集中第一链接的产生时间 ;

  所述第一链接集中第一链接对应的网页的流量 ;

  所述第一链接集中第一链接对应的网页的权威度。

  具体地,第一链接集中第一链接的抓取时间指搜索引擎抓取到第一链接并将其放入搜索引擎索引信息库中的时间,该抓取时间越早,表明相应的第一链接被搜索引擎发现的时间越早,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。

  第一链接集中第一链接的产生时间指该第一链接及其所指向的资源文件在网络上的发布时间,该产生时间越早,表明相应的第一链接的存续时间越久,这在一定程度上表征了该第一链接所指向的资源文件的质量也较高。

  第一链接集中第一链接对应的网页的流量指与该第一链接相对应的网页的访问量,该流量可以是日级、周级,甚至是月级的,该流量越大,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的用户访问量越大,说明该资源文件的用户关注度和用户欢迎度较高,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。

  第一链接集中第一链接对应的网页的权威度指搜索引擎或者第三方设备对与该第一链接相对应的网页的质量及重要程度的评价,该权威度越高,表明该第一链接对应的网页,也即该第一链接所指向的资源文件所在的网页的较高且较为重要,这在较高程度上表征了该第一链接所指向的资源文件的质量也较高。

  技术人员应能理解上述对第一链接集去重处理的参考因素仅为举例,其他现有的或今后可能出现的对第一链接集去重处理的参考因素

  狗小云SEO博客首发 本算法来源百度内部材料,

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕