HanLP分词案例

text = '举办纪念活动铭记二战历史,不忘战争带给人类的深重灾难,是为了防止悲剧重演,确保和平永驻;记二战历史,' \
       '更是为了提醒国际社会,需要共同捍卫二战胜利成果和国际公平正义,' \
       '必须警惕和抵制在历史认知和维护战后国际秩序问题上的倒行逆施。'
# *****************************HanLP分词*****************************
print('-' * 40)
print('HanLP分词')
print('-' * 40)
# 返回一个list,每个list是一个分词后的Term对象,可以获取word属性和nature属性,分别对应的是词和词性
terms = HanLP.segment(text)
print(len(terms))
for term in terms:
    print(term.word, term.nature)

  

----------------------------------------
HanLP分词
----------------------------------------
62
举办 v
纪念活动 nz
铭记 v
二战 n
历史 n
, w
不忘 v
战争 n
带给 v
人类 n
的 ude1
……(结果过多,省略)
的 ude1
倒行逆施 vl
。 w

  

# *****************************标准分词*****************************

print('-' * 40)
print('标准分词')
print('-' * 40)

BasicTokenizer = JClass("com.hankcs.hanlp.tokenizer.BasicTokenizer")
terms = BasicTokenizer.segment(text)
print(len(terms))
for term in terms:
    print(term.word, term.nature)

  

----------------------------------------
标准分词
----------------------------------------
62
举办 v
纪念活动 nz
铭记 v
二战 n
历史 n
, w
不忘 v
战争 n
带给 v
人类 n
的 ude1
……(结果过多,省略)
的 ude1
倒行逆施 vl
。 w

  

posted @ 2022-04-06 08:00  青竹之下  阅读(43)  评论(0编辑  收藏  举报