NLP分词

NLP分词

NLP分词NLPTokenizer会执行词性标注和命名实体识别，由结构化感知机序列标注框架支撑。
默认模型训练自9970万字的大型综合语料库，是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果，面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。

# *****************************NLP分词*****************************

print('-' * 40)
print('HanLP分词')
print('-' * 40)
# NLP分词器NLPTokenizer会执行全部命名实体识别和词性标注
NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer")
terms = NLPTokenizer.segment(text)
print(len(terms))
for term in terms:
    print(term.word, term.nature)

　　

----------------------------------------
HanLP分词
----------------------------------------
61
举办 v
纪念 vn
活动 vn
铭记 v
二战 j
历史 n
……（结果过多，省略）
的 u
倒行逆施 i
。 w

　　

posted @ 2022-04-07 08:00 青竹之下阅读(57) 评论(0) 编辑收藏举报

刷新页面返回顶部