前段时间在百度站长平台读到关于lee发表的外联判断的文章。现在刚好有几分钟剩余时间,就顺便发表下感想或者是猜想吧。 百度原文链接: 一、判断外链是否为问题外链的原则—真实推荐 百度判断一个外链是否为问题外链的唯一原则:是否是用户或者其他网站的真心推荐,是否具体高质量的推荐意义。 这里有个要点:“真心推荐”什么样才是真心的推荐?类似在便民页面链接的某些天气预报火车时刻表这样的页面,但是这个并不能很好的进行判断,唯一进行判断的标准就是进行特征关键词抓去,判断页面是否存在有主动交换链接的倾向。比如去判断一些常用的链接交换字眼等等。这里不做详细说明,具体的特征字应该很多。 2、作弊外链 以欺骗搜索引擎、蓄意干扰搜索引擎排序为目的,由受益网站主导、人为故意或机器制作的外链。包括但不限于:锚文本作弊、购买高权重外链、黑链、批量大规模增加低质量外链、链轮等等。对于此类外链,我们进行识别过滤的基础上,同时将对链接指向网站进行一定的处理,产生直接的负面影响。 这里有几个要点就是 “购买链接”“黑链”“批量大规模低质量外链”“链轮”。如何识别购买链接呢?1.抓取特征样式,或者特征html标签,具体标签可以去大量的淘宝出售链接地方找特征,同时于关键词并存匹配,比如淘金链什黄金链,抓到这些链接直接给与0推荐度。 “黑链”的识别也一直是难题,只要搞定80%的黑链特征基本就算成功了,那么要怎么做呢,第一 在后的链接不作权重计算,当作作弊链接,样式中存在CSS隐藏的不作计算。隐藏的和背景颜色一样的不做计算。 “大规模低质量外链”要搞定大规模首先要进行链接关系的处理,让单个网站的多个页面的链接进行合并或者只计算1个或者2个或者稍微多一点。 那么就可以之计算主域下的链接比如 就只计算 slin.com.cn的链接 那么就可以杜绝博客群发或者大量二级域名堆积垃圾链接带来的不公平投票。就算你发1万个新浪博客那么之计算slin.com.cn主域名下的1个链接,这样就可以让博客群发失效,当然目前已经这样了。 3、垃圾超链举例详述 (1)搜索结果页发出的链接。不用举例,网上存在大量的搜索结果页产生的链接。此类外链将被百度所过滤,不计算链接权重; 搜索结果页发出的链接,从开发角度分析,这些页面基本都含有参数,比如等号“=” 问号“?”参数传递“&”等,通过过滤掉这些链接就可以过滤掉90%的搜索结果页发出的链接,那么如果你的站是动态页面,那么你的内链除了用于发现链接外应该没有其他用处了。 另外文章还谈到了论坛签名作弊,这个已经是老的不能再老的算法了 搜索引擎通过分析样式来得到链接样式,比如一些用户名加链接的行为都是没有权重传递的。搜索引擎可以很好的区分链接属性 比如 不可见链接 隐藏链接 边框链接 等等 当然还有nofollow 还有更多的作弊链接。从开发角度讲这些东西是很强的,为搜索的公正和客户体验带来了不可多得的好处。 当然时下更好的算法还是来自用户的推荐度,就是在搜索结果页进行的页面的点击,当然一些黑帽站长也在用这个进行作弊。最早的24小时排名,百度点击器什么的 都是利用这个算法对搜索结果进行敢干预,模拟用户行为来提高页面的可信度。 权重高的网站正常链接为什么比权重低的正常链接提升排名的效果要好,因为在搜索引擎内部链接关系表里面 有一个页面的权重。 那么分析出来的算法模型就这样的: 页面权重×页面的推荐度×链接的性质=最终推荐度。 最终推荐度+页面本身的权重,也就是在搜索引擎的倒排索引里面通过计算停用词关键词,TFD fid等等这些东西所所获得的分值。然后加上用户行为的权重 最终等于页面的排名情况。 页面构造 + 外部推荐度 + 用户行为推荐 = 最终排名。 对了 忘记了一个重要的东西 就是 页面的 时间戳,时间越新排名越好。 页面构造 + 外部推荐度 + 快照时间推荐 + 用户行为推荐 = 最终排名。 文章就到这里吧 当然搜索引擎的算法越完善带给人民的福利就越多,也希望尽快完善。 转载的请注明出处吧( 谢谢合作) (责任编辑:admin) |