通常搜索一个query分词后会得到1个或多个子词。 可能包含N中需求类型,假设这个值为2,那么搜索行尸走肉,会确定将要返回给用户的搜索结果应该是:视频类型搜索结果以及小说类型的搜索结果(参见说明1)。 上述内容表达了搜索引擎如何确定用户query的需求,那么如何去计算query与可能参与排名页面的相关度呢? 搜索引擎解决了用户需求,就解决了核心问题-了解用户搜索需求。 例如当前已经了解到,搜索“临沂八九点人才网”的用户极可能是要找视频类与小说类的信息,那么根据视频类信息来进行页面的语义分析,一般搜索引擎语义分词包括但不仅限于以下几种: 1、基于字符串的语义分析 2、基于计算机理解的语义分析 3、基于统计的语义分析 4、基于语义分词 以上4点内容不难理解,还有一点需要注明,那就是搜索引擎还会过滤一些内容,例如大家都知道的,搜索引擎会过滤一些“的、地”之类的词,搜索引擎一般会过滤: 1、停用词集合内所有的词语 2、非独立表意的词语 说明2:搜索引擎还会用另外一种技术来了解用户需求,一般来说,用户在输入一个查询关键词的时候,会把比较重要或者能表达核心查询意思的词放置于头部或尾部。所以搜索引擎有时会直接将用户搜索关键词的头部或者尾部放入用户需求的需求类型概率的集合中。 现在确定了用户需求就是视频,那么如何来匹配到与视频相关的页面就是最后一个需要解决的问题。 一般来说,需求有两种类型: 1、文本类 2、非文本类 在非文本类中又包括但不仅限于以下类型 1、视频 2、图片 3、商品 4、博客 5、论坛 6、小说 7、等等 简单地说如此已经可以确定网页与视频类需求的关键词,剩下的就是通过网页的权威度值来进行排序了。 (责任编辑:admin) |