摘要:
所有分词器都是 Segment 的子类, Segment 提供以下配置接口: 用户可以使用链式语法对Segment执行创建和配置操作,一气呵成: Segment shortestSegment = new ViterbiSegment().enableCustomDictionary(false). 阅读全文
摘要:
1. 中国人名识别 (默认开启) 标注为 nr 2. 音译人名识别 (默认开启) 标注为 nrf 3. 日本人名识别 (默认关闭) 标注为 nrj 4. 地名识别 (默认关闭) 标注为 ns 5. 机构名识别 (默认关闭) 标注为 nt HanLP这五个,基于HMM角色标注的命名实体识别 (速度快) 阅读全文
摘要:
1. 标准分词 2. NLP分词 3. 索引分词 4. 繁体分词 5. 极速词典分词 6. N-最短路径分词 7. CRF分词 详细文档:http://hanlp.linrunsoft.com/doc/_build/html/segment.html 自定义词典 第一步: data\dictiona 阅读全文