NLP分词

NLP分词

  • NLP分词NLPTokenizer会执行词性标注和命名实体识别,由结构化感知机序列标注框架支撑。
  • 默认模型训练自9970万字的大型综合语料库,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。

# *****************************NLP分词*****************************

print('-' * 40)
print('HanLP分词')
print('-' * 40)
# NLP分词器NLPTokenizer会执行全部命名实体识别和词性标注
NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer")
terms = NLPTokenizer.segment(text)
print(len(terms))
for term in terms:
    print(term.word, term.nature)

  

----------------------------------------
HanLP分词
----------------------------------------
61
举办 v
纪念 vn
活动 vn
铭记 v
二战 j
历史 n
……(结果过多,省略)
的 u
倒行逆施 i
。 w

  

posted @ 2022-04-07 08:00  青竹之下  阅读(57)  评论(0编辑  收藏  举报