摘要:
词性标注在HanLP的readme中有这样的一段话词性标注HMM词性标注(速度快)感知机词性标注、CRF词性标注(精度高)在之前的分词部分,我们已经发现了,在分词器中,默认是开启词性标注的,甚至想要获得没有词性标注的list还需要使用, HanLP.Conf... 阅读全文
摘要:
简介HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。共性分析“”"一阶共性分析,也就是词频统计信... 阅读全文