jieba初步了解
http://www.gowhich.com/blog/147
jieba自带词典:dict.txt
一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开
例如:词 频率 词性
一不注意 3 i
一不留神 3 i
一专多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龙门 3 i
这篇文档介绍的比较详细:http://www.cnblogs.com/wangtao_20/p/3647240.html
关于中文分词方法的了解:
一、基于词典分词
机械分词:
按照长度优先级不同,分为最大匹配与最小匹配
按匹配方向不同,分为正向匹配与逆向匹配
缺点:缺乏歧义分析处理,切分精度低
基于规则分词方式:
基于统计分词方式:
以上两者可以依赖库也可以不依赖库,与词典分词结合起来用。难以严格区分
实践中,经常以正向匹配方式为主。
依赖于词典的方法,缺点是:没有在词典中出现的词语,就没法作为关键词进行切分(识别新词一般使用统计法)。
二、基于词频统计分词
将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。
实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
三、基于规则分词
即基于理解分词
规则法,目前常见的是CRF(Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field)。具体的实现可参考http://nlp.stanford.edu/software/segmenter.shtml
基于统计和基于规则的分词法是非词典,也就是可以不需要词典的(实际中是多种方式结合,所以会与词典结合)。
基于词典的和不基于词典的两类分词法,有他们各自的优缺点
基于词典的,部署比较简单,只需要安装词库即可。实现也简单,对比查找词语库的思路。
缺点是,分词精度有限,对于词典里没有的词语识别较差。
非词典分词法,优点是,对于出现过的词语识别效果较好,能够根据使用领域达到较高的分词精度。
缺点:实现比较复杂。前期需要做大量的工作。
现实中,没有一种分词方法能够满足所有需求。所以一般都是多种分词方法结合起来使用,相互弥补。
现实中的使用词典来存储大部分关键词,而识别新词使用统计法。最后就是词典+统计法结合起来使用。
既能达到分词精准,又能分词速度快,往往是比较理想的状态。但要求精准就会存在性能消耗。搜索引擎需要在分词速度与分词准确度方面求得平衡。
中文分词一直要解决的两大技术难点为:歧义识别和新词识别(新的人名、地名等)