jieba默认词库及词性对照

一 加载默认词库

结巴默认词库位置:

miniconda\Lib\site-packages\jieba\dict.txt

加载默认词库:

jieba分词每次启动时,做了2件事情:

  • 加载结巴自身的默认词库
  • 将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库 缓存文件: jieba.cache

如果要修改默认词库,可以修改默认词库文件。

二 加载自定义词库

可以使用jieba.load_userdict方法加载自定义词库。

 import jieba    
 jieba.load_userdict("dict.txt")

 

三 词性对照

jieba分词 词典标注格式:

词 词频 词性

其中, 词频、词性可为空。词频大于1的整数。

一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。

词典文件 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。

 

jieba分词词性对照表

// jieba词性对照表
- a 形容词  
    - ad 副形词  
    - ag 形容词性语素  
    - an 名形词  
- b 区别词  
- c 连词  
- d 副词  
    - df   
    - dg 副语素  
- e 叹词  
- f 方位词  
- g 语素  
- h 前接成分  
- i 成语 
- j 简称略称  
- k 后接成分  
- l 习用语  
- m 数词  
    - mg 
    - mq 数量词  
- n 名词  
    - ng 名词性语素  
    - nr 人名  
    - nrfg    
    - nrt  
    - ns 地名  
    - nt 机构团体名  
    - nz 其他专名  
- o 拟声词  
- p 介词  
- q 量词  
- r 代词  
    - rg 代词性语素  
    - rr 人称代词  
    - rz 指示代词  
- s 处所词  
- t 时间词  
    - tg 时语素  
- u 助词  
    - ud 结构助词 得
    - ug 时态助词
    - uj 结构助词 的
    - ul 时态助词 了
    - uv 结构助词 地
    - uz 时态助词 着
- v 动词  
    - vd 副动词
    - vg 动词性语素  
    - vi 不及物动词  
    - vn 名动词  
    - vq 
- x 非语素词  
- y 语气词  
- z 状态词  
    - zg 

 

posted @ 2022-07-29 18:26  IllidanStormrage  阅读(1670)  评论(0编辑  收藏  举报