第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

Shingle算法对SEO聚合页面的一点启发

时间:2013-06-15 18:16来源:网络 作者:陈慧 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
Shingle算法是搜索引擎去掉相同或相似页面的其中一种基本算法,做SEO聚合页面的时候如何让页面之间不重复?如何处理重复度的问题?可以反推Shingle算法得到一些

  Shingle算法是搜索引擎去掉相同或相似页面的其中一种基本算法,做SEO聚合页面的时候如何让页面之间不重复?如何处理重复度的问题?可以反推Shingle算法得到一些启发。

  Shingle [ˈʃɪŋgəl]在英文中表示相互覆盖的瓦片。先通过一个例子来说明Shingle算法:

  假设有A、B两个文档的标题,A文档的标题是:明起电话订火车票可全国通取取票时间延12小时;B文档的标题是:火车票电话订票实现全国通取网上预售期延长。

  搜索引擎如何知道这两篇文档标题是否是重复的?比如我们可以以2个汉字切为一个Shingle的方法:

  

 

  对于长度L的文档,每隔N个汉字切一个Shingle,这样一共切到L-N+1个shingle,A文档标题切成了L-N+1=21-2+1=20个Shingle,B文档标题切成了L-N+1=20-2+1=19个Shingle。

  A、B两个文档标题共同的Shingle有图上7个加粗的:电话、话订、火车、车票、全国、国通、通取。

  A、 B两个文档标题一共有20+19-7=32个Shingle。

  然而,A、B两个文档标题共同的Shingle,除以,A、B两个文档标题一共有的Shingle,就是这两个文档标题的Jaccard系数,可以用来判断A、B两个文档标题的相似度。

  A、 B两个文档标题的Jaccard系数=7/(20+19-7)=0.21875

  从两个文档的标题,可以延伸到两个页面文档,再延伸到N个页面,通过Jaccard系数是否达到相似所需要的标准来判断页面与页面是否相似。

  这就是Shingle算法,两个集合的交集除以两个集合的并集,得到Jaccard系数,通过判断Jaccard系数是否大于某个数,来判断两个集合是否重复。

  反推Shingle算法,如果Jaccard系数小于某个数,就不重复了,先给每个文档集合拆分成若干个Shingle,再两两计算Jaccard系数,如果小于某个数,生成页面即可。

  我之前做的一个项目使用的一个方法,虽然比较笨,也还算实用,分享一下:

  假设北京电影品类有100个团购单子,现在要为下图右边这些词设计聚合页面,每个页面展示10个单子,假设jaccard系数大于0.3判定为页面重复,怎么生成不重复页面?

  如下图展示单子的标题和长标题(假设seo聚合页用的长标题,因为长标题文字不单一,文字量也大):

  每个id是唯一的,每个id对应的标题和长标题可以近似于唯一,那就可以简化成允许相同id的单子数来解决重复的问题。

  意思是,每个页面展示10个单子,每两个页面不能有>=3.33个id是一样的,即两两页面id比较,所有的id都不同可以生成页面,只有1个id相同可以生成页面,只有2个id相同可以生成页面,只有3个id相同可以生成页面,如果有大于等于4个id相同就不生成页面。

  以后会把大部分业余时间花在算法、技术、seo交流上,期望有更多好的东西分享给大家。

  有问题欢迎私信美团陈慧微博:

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕