jieba默认词库及词性对照
一 加载默认词库
结巴默认词库位置:
miniconda\Lib\site-packages\jieba\dict.txt
加载默认词库:
jieba分词每次启动时,做了2件事情:
- 加载结巴自身的默认词库
- 将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库
缓存文件: jieba.cache
如果要修改默认词库,可以修改默认词库文件。
二 加载自定义词库
可以使用jieba.load_userdict方法加载自定义词库。
import jieba jieba.load_userdict("dict.txt")
三 词性对照
jieba分词 词典标注格式:
词 词频 词性
其中, 词频、词性可为空。词频大于1的整数。
一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
词典文件 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
jieba分词词性对照表
// jieba词性对照表 - a 形容词 - ad 副形词 - ag 形容词性语素 - an 名形词 - b 区别词 - c 连词 - d 副词 - df - dg 副语素 - e 叹词 - f 方位词 - g 语素 - h 前接成分 - i 成语 - j 简称略称 - k 后接成分 - l 习用语 - m 数词 - mg - mq 数量词 - n 名词 - ng 名词性语素 - nr 人名 - nrfg - nrt - ns 地名 - nt 机构团体名 - nz 其他专名 - o 拟声词 - p 介词 - q 量词 - r 代词 - rg 代词性语素 - rr 人称代词 - rz 指示代词 - s 处所词 - t 时间词 - tg 时语素 - u 助词 - ud 结构助词 得 - ug 时态助词 - uj 结构助词 的 - ul 时态助词 了 - uv 结构助词 地 - uz 时态助词 着 - v 动词 - vd 副动词 - vg 动词性语素 - vi 不及物动词 - vn 名动词 - vq - x 非语素词 - y 语气词 - z 状态词 - zg