索引分词
- 索引分词IndexTokenizer是面向搜索引擎的分词器,能够对长词全切分,另外通过term.offset可以获取单词在文本中的偏移量。
- 任何分词器都可以通过基类Segment的enableIndexMode方法激活索引模式。
# *****************************索引分词***************************** print('-' * 40) print('索引分词') print('-' * 40) IndexTokenizer = JClass("com.hankcs.hanlp.tokenizer.IndexTokenizer") terms = IndexTokenizer.segment(text) print(len(terms)) for term in terms: print(term.word, term.nature, '[', term.offset, ':', term.offset + len(term.word), ']')
---------------------------------------- 索引分词 ---------------------------------------- 69 举办 v [ 0 : 2 ] 纪念活动 nz [ 2 : 6 ] 纪念 v [ 2 : 4 ] 活动 vn [ 4 : 6 ] 铭记 v [ 6 : 8 ] 二战 n [ 8 : 10 ] ……(结果过多,省略) 的 ude1 [ 105 : 106 ] 倒行逆施 vl [ 106 : 110 ] 倒行 nz [ 106 : 108 ] 逆施 nz [ 108 : 110 ] 。 w [ 110 : 111 ]