百度作为国内搜索引擎的扛把子,在对网络数据的抓取、排序算法方面无人能敌,完美运作着百度竞价推广和自然排名(魏则西事件也让百度的竞价推广服务被推上 风口浪尖),这里面自然脱离不开百度的机器学习。通过大数据获取的海量用户数据,机器学习通过对信息的分类、科学的建模为用户提供更多的附加值产品,比如:百度搜索结果页右侧推荐关联词 但机器毕竟不是人脑,所谓的学习也不是真的去思考问题,而是依赖于算法工程师的逻辑设定。如果算法工程师在逻辑设定上有问题,机器学习必然会产生错误结果。就如同下面的例子,这是今天我在用百度搜索时无意中的发现:
本来脑子瓦特了,是上海一句骂人的话(具体感兴趣的,大家可百度,哈哈),跟缠足这个词是没有一毛钱关系,但我们看看百度搜索结果页右侧推荐关联词都是些什么: 【相关习俗】三寸金莲、一夫多妻、裹脚、殉葬 【相关人物】阳焕宜、王敏彤、妇好、珍妃 【相关词汇】天足、平妻、自宫、女子无才便是德 打眼一看,基本都是跟裹足有关系,为什么会有这个结果呢?仔细看下左侧正常的自然搜索结果,就会发现问题,排名第1的是百度知道,暂且不表,百度自家产品排名必然的高,重点分析排名第2的那篇文章《太可怕了,现在竟然还有女生缠足!!脑子瓦特了吧》 这篇文章是福州小鱼网论坛里面的一个帖子,仔细看标题,就会发现问题:缠足、脑子瓦特了这两个关键词都包含在内。那我们要先了解一个问题,这个小鱼网好像也不是什么很知名的网站,为何我们在搜【脑子瓦特了】这个词的时候它可以排名第2呢?看过这篇帖子就会发现,它排名高是有原因的: 1,内容新奇 我这个本身是搜脑子瓦特了的人看到这篇跟我搜的完全不想关的文章都忍不住看了好一会儿,这会产生怎样的结果呢?搜索到这篇文章的人,不管搜的什么词,都会有兴趣看上一眼,跳出率,在线时长,浏览页面数等影响用户体验的关键指标,会因此而被错有错招的操纵,而这些是能够影响百度关键词排名的重要因素。换个角度讲:就算你搜错词了,但因为跳出率,在线时长,浏览页面数这些百度用来判断文章跟关键词关联性的数据都很好,百度认为你这篇文章就是你要找的高质量文章。 2,内容不断被更新 为何用个“被”字呢,因为这个是论坛,不断有新的回复。这篇帖子的发布时间:2014-9-29,最近一次回复时间: 2016-4-28,差不多有两年时间了,楼层都盖到203楼了,说明这篇文章的确是有其存在的价值。实际上大家都被骗了,这篇文章内容能被不断更新的原 因是:设定了回复才能浏览,这样在猎奇心理的驱使下,大家不断回复更新内容,帖子被在论坛内不断人工置顶(帖子被回复会自动排序到论坛帖子列表的首位),站内没看过这篇帖子的会员看到后又一波的回复及人工置顶……
度娘就这样又一次被这种假象给完美欺骗了~ 综合以上两点,度娘高兴坏了,这样低跳出率、高访问时长、高浏览页面数且不断更新的文章就是天赐的不可多得的好文章啊~所以排名顶呱呱也是意料之中(ps:大家搜【缠足】这个词,这篇文章的排名依然很高,我这显示排第4),度娘还专门为这篇文章设置了【为您推荐】
对这篇在度娘心目中极具分量的文章通过分词技术进行深度解析,度娘分析出缠足和脑子瓦特了这两个词存在某种强关系,所以我们最开始关于脑子瓦特了和缠足为什么存在相关性的问题也有了答案。百度搜索结果页右侧推荐关联词也正是因为这篇文章,致使在搜索脑子瓦特了这个词时,缠足的相关结果会在其右侧展示。 综上所述,百度搜索结果页右侧推荐关联词理论上是可以被操纵的,只是很难很难很难,除非你也能搞一篇这么逆天又能完美欺骗度娘的文章~ (责任编辑:admin) |