如何快速正确分词,对于SEO来说,是提取tags聚合,信息关联的好帮手。 目前很多分词工具都是基于一元的分词法,需要词库来辅助。 通过对Google黑板报第一章的学习,如何利用统计模型进行分词。 本方法考虑了3个维度 凝聚程度:两个字连续出现的概率并不是各自独立的程度。例如“上”出现的概率是1×10^-5,”床”出现的概率是1×10^-10,如果这两个字的凝聚程度低,则”上床”出现的概率应该和1×10^-15接近,但是事实上”上床”出现的概率在1×10^-11次方,远高于各自独立概率之积。所以我们可以认为“上床”是一个词。 左邻字集合熵:分出的词左边一个字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”过去”这个词,前面可以用“走过去”,“跑过去”,“爬过去”,“打过去”,“混过去”,“睡过去”,“死过去”,“飞过去”等等,信息熵就非常高。 右邻字集合熵:分出的词右边一个词的信息量,同上
下面是一个利用Python实现的demo(转自:?mod=viewthread&tid=20) (责任编辑:admin) |