HanLP分词案例
text = '举办纪念活动铭记二战历史,不忘战争带给人类的深重灾难,是为了防止悲剧重演,确保和平永驻;记二战历史,' \ '更是为了提醒国际社会,需要共同捍卫二战胜利成果和国际公平正义,' \ '必须警惕和抵制在历史认知和维护战后国际秩序问题上的倒行逆施。' # *****************************HanLP分词***************************** print('-' * 40) print('HanLP分词') print('-' * 40) # 返回一个list,每个list是一个分词后的Term对象,可以获取word属性和nature属性,分别对应的是词和词性 terms = HanLP.segment(text) print(len(terms)) for term in terms: print(term.word, term.nature)
---------------------------------------- HanLP分词 ---------------------------------------- 62 举办 v 纪念活动 nz 铭记 v 二战 n 历史 n , w 不忘 v 战争 n 带给 v 人类 n 的 ude1 ……(结果过多,省略) 的 ude1 倒行逆施 vl 。 w
# *****************************标准分词***************************** print('-' * 40) print('标准分词') print('-' * 40) BasicTokenizer = JClass("com.hankcs.hanlp.tokenizer.BasicTokenizer") terms = BasicTokenizer.segment(text) print(len(terms)) for term in terms: print(term.word, term.nature)
---------------------------------------- 标准分词 ---------------------------------------- 62 举办 v 纪念活动 nz 铭记 v 二战 n 历史 n , w 不忘 v 战争 n 带给 v 人类 n 的 ude1 ……(结果过多,省略) 的 ude1 倒行逆施 vl 。 w