第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

基于用户浏览记录的网页rank思路

时间:2012-09-13 17:48来源:网络 作者:yangyang 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
Google的pagerank就不多介绍了,一个能衡量网页重要程度的算法,本质上是网页相互投票的结果,基于这个特性,我们可以通过使用sitemap让搜索引擎尽可能浏览到多

  

\

 

  Google的pagerank就不多介绍了,一个能衡量网页重要程度的算法,本质上是网页相互投票的结果,基于这个特性,我们可以通过使用sitemap让搜索引擎尽可能浏览到多的网站内容,也可以通过多做外链来提高网站的PR值,达到SEO的目的。

  市场上大多数搜索引擎都在使用pagerank类似的方法,且为了保证公正性,都采用纯机器运行的方式,通过网页爬虫来遍历网站,这就出现了一些有趣的问题:

  1、一个网页的内容是很棒的,但是由于外链太少,爬虫在设定的深度阈值下可能无法爬到它,成为了少人问津的“暗内容”

  2、部分网站因为PR值很高,即使转载的内容或是价值不高的内容,也可能有很好的检索排名,即使技术领先的搜索引擎采用语义网络的方法识别优质内容,效果依然不够好

  为了规避以上问题,引入用户数据来评判网页内容的重要性及质量,是一个可研究方向,怎么做呢?

  假设: 浏览行为及时长是对网页质量的最好评判,相当于用户标注,在大规模数据的情况下,效果应优于机器

  原理:

  1、通过浏览器或其他客户端软件,最好的防火墙或其他安全软件,获取用户浏览日志,上传给搜索引擎的爬虫数据库,即是得到用户浏览数据

  2、爬虫匹配已有索引库,找到未索引内容,爬之

  3、利用用户日志给网页投票,浏览时间越长权重越高,计算出网页的rank

  缺陷:

  1、依赖客户端

  2、有用户隐私问题

  规避:

  1、提出云杀毒、云防御、云安全,让用户同意上传浏览记录

  2、偷偷上传,将浏览记录(其他文件也可以)加密并分拆上传,在服务器端组合还原

  好了,思路说完了,来给它起个响亮高深名字:peoplerank

  最后,我这是很严肃地说技术

  Via i黑马 By sluke陆蔚青 原文地址:

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕