索引分词

索引分词IndexTokenizer是面向搜索引擎的分词器，能够对长词全切分，另外通过term.offset可以获取单词在文本中的偏移量。
任何分词器都可以通过基类Segment的enableIndexMode方法激活索引模式。

# *****************************索引分词*****************************

print('-' * 40)
print('索引分词')
print('-' * 40)

IndexTokenizer = JClass("com.hankcs.hanlp.tokenizer.IndexTokenizer")
terms = IndexTokenizer.segment(text)
print(len(terms))
for term in terms:
    print(term.word, term.nature, '[', term.offset, ':', term.offset + len(term.word), ']')

　　

----------------------------------------
索引分词
----------------------------------------
69
举办 v [ 0 : 2 ]
纪念活动 nz [ 2 : 6 ]
纪念 v [ 2 : 4 ]
活动 vn [ 4 : 6 ]
铭记 v [ 6 : 8 ]
二战 n [ 8 : 10 ]
……（结果过多，省略）
的 ude1 [ 105 : 106 ]
倒行逆施 vl [ 106 : 110 ]
倒行 nz [ 106 : 108 ]
逆施 nz [ 108 : 110 ]
。 w [ 110 : 111 ]

　　

posted @ 2022-04-08 08:00 青竹之下阅读(89) 评论(0) 收藏举报

刷新页面返回顶部