NLP分词
NLP分词
- NLP分词NLPTokenizer会执行词性标注和命名实体识别,由结构化感知机序列标注框架支撑。
- 默认模型训练自9970万字的大型综合语料库,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。
# *****************************NLP分词***************************** print('-' * 40) print('HanLP分词') print('-' * 40) # NLP分词器NLPTokenizer会执行全部命名实体识别和词性标注 NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer") terms = NLPTokenizer.segment(text) print(len(terms)) for term in terms: print(term.word, term.nature)
---------------------------------------- HanLP分词 ---------------------------------------- 61 举办 v 纪念 vn 活动 vn 铭记 v 二战 j 历史 n ……(结果过多,省略) 的 u 倒行逆施 i 。 w