搜索引擎的3个核心问题

　　1.用户真正的需求是什么

　　搜索引擎用户输入的查询请求非常简短，查询的平均长度是2.7个单词。如何从如此短的查询请求里获知隐藏其后的真实用户需求?这是搜索引擎首先需要解决的非常重要的问题。如果不能获取用户真正的搜索意图，搜索的准确性无从谈起，即使后续内容匹配算法再精巧也无济于事。

　　从另外一个角度看，即使是同一个查询词，不同用户的搜索目的是不同的，如何识别这种差异?如果更进一步，即使是同一个用户发出的同一个查询词，也可能因为用户所处场景不同，其目的存在差异，又如何识别?所有这些都是搜索引擎需要解决的核心问题，即用户在此时此地发出某个查询，他的真正搜索意图到底是什么。

　　2.哪些信息是和用户需求真正相关的

　　上述第一个核心问题是从用户需求角度出发的，另外两个核心问题则是从数据角度考虑的。搜索引擎本质上是一个匹配过程，即海量数据里面找到能够匹配用户需求的内容。所以，在明确用户真实意图这个前提条件做到后，如何找到能够满足用户需求的信息则成为关键因素。

　　判断内容和用户查询关键词的相关性，一直是信息检索领域的核心研究课题，不断提出的信息检索模型即在试图解决这个问题。相关研究历时近60年，尽管不断有新方法提出，检索效果总体而言也在逐渐改进，但是这个领域的基本指导思想还是基于关键词的匹配，包括现在所有搜索引擎的相关性计算部分，其基本计算思路和几十年前相比并无本质差异。

　　3.哪些信息是用户可以信赖的

　　搜索本质上是找到能够满足用户需求的信息，尽管相关性是衡量信息是否满足用户需求的一个重要方面，但并非全部。信息是否值得信赖是另外一个重要的衡量标准。

　　搜索引擎需要处理的信息对象是互联网上任意用户发布的内容，但是内容发布者所发布内容是否可信并无明确判断标准。这其间存在恶意的信息发布者故意歪曲事实的情况，也有信息发布者无心的错误。在同一个查询的搜索结果内，完全可能存在互相矛盾的搜索答案，此时信息的可信性即成为突出问题。

　　从某种角度看，链接分析之所以能够改善搜索结果，可以认为是对信息的可信赖度做出的评判。即将网页的重要性作为是否可信赖的一个判断标准，返回重要网页即是返回可信赖网页。

(责任编辑：admin)

搜索

热门标签:

搜索引擎的3个核心问题