索引分词

  • 索引分词IndexTokenizer是面向搜索引擎的分词器,能够对长词全切分,另外通过term.offset可以获取单词在文本中的偏移量。
  • 任何分词器都可以通过基类Segment的enableIndexMode方法激活索引模式。


# *****************************索引分词*****************************

print('-' * 40)
print('索引分词')
print('-' * 40)

IndexTokenizer = JClass("com.hankcs.hanlp.tokenizer.IndexTokenizer")
terms = IndexTokenizer.segment(text)
print(len(terms))
for term in terms:
    print(term.word, term.nature, '[', term.offset, ':', term.offset + len(term.word), ']')

  

----------------------------------------
索引分词
----------------------------------------
69
举办 v [ 0 : 2 ]
纪念活动 nz [ 2 : 6 ]
纪念 v [ 2 : 4 ]
活动 vn [ 4 : 6 ]
铭记 v [ 6 : 8 ]
二战 n [ 8 : 10 ]
……(结果过多,省略)
的 ude1 [ 105 : 106 ]
倒行逆施 vl [ 106 : 110 ]
倒行 nz [ 106 : 108 ]
逆施 nz [ 108 : 110 ]
。 w [ 110 : 111 ]

  

posted @ 2022-04-08 08:00  青竹之下  阅读(75)  评论(0编辑  收藏  举报