jieba库的使用
jieba库的使用
jeiba库是一款很优秀的用于中文分词的第三方库,它通过一个汉词词典来确定汉字之间的关联概率,将概率较大的组成分词。
精准模式
把文本精准的分割开来,不存在冗余单词。
- jieba.lcut(s)
传入一个字符串s,用于返回一个列表类型的分词结果
全模式
将文本中所有可能的词语全部扫描出来,存在冗余。
- jieba.lcut(s,cut_all=True)
以全模式返回一个列表类型的分词结果。
搜索引擎模式
在精准模式的基础上,对于一些较为长的单词进行分割,但是分割结果也存在冗余。
- jieba.lcut_for_search(s)
传入一个字符串s,以搜索引擎模式返回一个列表类型的分词结果。
词典更新
用户可以根据自身需要,向匹配词典中添加一些单词
- jieba.add_word(w)
向分词词典中添加一个新词