如今互联网上的信息在飞速增长,使搜索引擎成为人们查找信息的首选工具,在Google推出中国后、让国内互联网公司巨头看来机遇,其中大型搜索引擎一直是人们讨论的话题,随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,其中最典型就是360的周鸿祎,让我看到搜索引擎市场将出现重新洗牌的迹象。自然,搜索引擎技术也成为技术人员关注的热点。 目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。 什么是中文分词 何为分词?中文分词与其他的分词又有什么不同呢?分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。 中文分词和搜索引擎 中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。 搜索引擎的竞争是取决于算法,还是取决于基础建设词库呢,从定性分析来说,分词算法的不同,词库的不同都会影响页面的返回结果,下面通过即刻搜索与百度对比分词,总结一下即刻与百度分词算法。 一、即刻搜索与百度分词算法基本类似
我们来看即刻与百度分词返回结果对比图 二、即刻搜索与百度返回结果分析 即刻搜索基本做到了中文分词的三个算法,基于字符串的分词算法,基于理解分词算法,基于统计的分词算法,但从即刻搜索与百度搜索返回结果中对比可以看出,即刻搜索的词库远远比百度的词库更完善。 从即刻搜索的介绍可以看出,即刻是2010开始运营,值得站长兄弟们深思的是,即刻搜索是否综合了谷歌是搜索手法呢。从一图对比分析可以看出,需要词语的完全匹配才会获得更好的排名,然而,基于百度或者即刻搜索,从seo的角度来说,扩展更多的长尾关键词,写出更多符合用户体验的文章才是正道。 总结,分词算法搜索引擎返回结果的核心问题,词库才是搜索引擎竞争的焦点。 (责任编辑:admin) |