jieba初步了解

http://www.gowhich.com/blog/147

jieba自带词典：dict.txt

一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略），用空格隔开

例如：词频率词性

一不注意 3 i
一不留神 3 i
一专多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龙门 3 i

这篇文档介绍的比较详细：http://www.cnblogs.com/wangtao_20/p/3647240.html

关于中文分词方法的了解：

一、基于词典分词

机械分词：

按照长度优先级不同，分为最大匹配与最小匹配

按匹配方向不同，分为正向匹配与逆向匹配

缺点：缺乏歧义分析处理，切分精度低

基于规则分词方式：

基于统计分词方式：

以上两者可以依赖库也可以不依赖库，与词典分词结合起来用。难以严格区分

实践中，经常以正向匹配方式为主。

依赖于词典的方法，缺点是：没有在词典中出现的词语，就没法作为关键词进行切分(识别新词一般使用统计法)。

二、基于词频统计分词

将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。

实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

三、基于规则分词

即基于理解分词

规则法,目前常见的是CRF（Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field）。具体的实现可参考http://nlp.stanford.edu/software/segmenter.shtml
基于统计和基于规则的分词法是非词典,也就是可以不需要词典的(实际中是多种方式结合，所以会与词典结合)。
基于词典的和不基于词典的两类分词法,有他们各自的优缺点
基于词典的，部署比较简单，只需要安装词库即可。实现也简单，对比查找词语库的思路。
缺点是，分词精度有限，对于词典里没有的词语识别较差。

非词典分词法，优点是，对于出现过的词语识别效果较好，能够根据使用领域达到较高的分词精度。
缺点：实现比较复杂。前期需要做大量的工作。

现实中，没有一种分词方法能够满足所有需求。所以一般都是多种分词方法结合起来使用，相互弥补。

现实中的使用词典来存储大部分关键词，而识别新词使用统计法。最后就是词典+统计法结合起来使用。

既能达到分词精准，又能分词速度快，往往是比较理想的状态。但要求精准就会存在性能消耗。搜索引擎需要在分词速度与分词准确度方面求得平衡。

中文分词一直要解决的两大技术难点为：歧义识别和新词识别(新的人名、地名等)

posted @ 2016-11-18 21:42 鎏鑫岁月阅读(525) 评论(0) 编辑收藏举报

刷新页面返回顶部

鎏鑫岁月

jieba初步了解

公告