jieba分词详细讲解3
4. 词性标注
jieba.posseg.POSTokenizer(tokenizer=None)
新建自定义分词器,tokenizer
参数可指定内部使用的jieba.Tokenizer
分词器。jieba.posseg.dt
为默认词性标注分词器。- 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
- 用法示例
>>> import jieba.posseg as pseg >>> words = pseg.cut("我爱北京天安门") >>> for word, flag in words: ... print('%s %s' % (word, flag)) ... 我 r 爱 v 北京 ns 天安门 ns
5. 并行分词
- 原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升
- 基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows
-
用法:
jieba.enable_parallel(4)
# 开启并行分词模式,参数为并行进程数jieba.disable_parallel()
# 关闭并行分词模式
-
例子:https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py(代码如下)
-
import sys import time sys.path.append("../../") import jieba jieba.enable_parallel() url = sys.argv[1] content = open(url,"rb").read() t1 = time.time() words = "/ ".join(jieba.cut(content)) t2 = time.time() tm_cost = t2-t1 log_f = open("1.log","wb") log_f.write(words.encode('utf-8')) print('speed %s bytes/second' % (len(content)/tm_cost))
-
实验结果:在 4 核 3.4GHz Linux 机器上,对金庸全集进行精确分词,获得了 1MB/s 的速度,是单进程版的 3.3 倍。
-
注意:并行分词仅支持默认分词器
jieba.dt
和jieba.posseg.dt
。
6. Tokenize:返回词语在原文的起止位置
- 注意,输入参数只接受 unicode
- 精确模式
result = jieba.tokenize(u'永和服装饰品有限公司') for tk in result: print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和 start: 0 end:2 word 服装 start: 2 end:4 word 饰品 start: 4 end:6 word 有限公司 start: 6 end:10
- 搜索模式
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search') for tk in result: print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和 start: 0 end:2 word 服装 start: 2 end:4 word 饰品 start: 4 end:6 word 有限 start: 6 end:8 word 公司 start: 8 end:10 word 有限公司 start: 6 end:10
7. ChineseAnalyzer for Whoosh 搜索引擎
- 引用:
from jieba.analyse import ChineseAnalyzer
-
用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py
8. 命令行分词
使用示例:python -m jieba news.txt > cut_result.txt