左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 2 3 4 5 6 7 8 9 ··· 19 下一页

2019年4月22日

摘要: 基于 HanLP 的 Elasticsearch 中文分词插件,核心功能: 兼容 ES 5.x-7.x; 内置词典,无需额外配置即可使用; 支持用户自定义词典; 支持远程词典热更新(待开发); 内置多种分词模式,适合不同场景; 拼音过滤器(待开发); 简繁体转换过滤器(待开发)。 版本 插件版本和 阅读全文

posted @ 2019-04-22 13:19 左手中倒影 阅读(546) 评论(0) 推荐(0) 编辑

2019年4月19日

摘要: 文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路 使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。 语料库选取1998年01月的人民日报语料库。199801人民日报语料 该词库带有词性标注,为了遵循LTP的训练数据集格式,需要处理掉词性标 阅读全文

posted @ 2019-04-19 10:08 左手中倒影 阅读(393) 评论(0) 推荐(0) 编辑

2019年4月15日

摘要: 基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。 阅读全文

posted @ 2019-04-15 09:44 左手中倒影 阅读(678) 评论(0) 推荐(0) 编辑

2019年4月12日

摘要: HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装 pip install pyhanlp 使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动配置或Windows指南。 命令行 中文分词 使用命令hanlp segment进入交互分词模式,输入一 阅读全文

posted @ 2019-04-12 10:25 左手中倒影 阅读(1112) 评论(0) 推荐(0) 编辑

2019年4月10日

摘要: 本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。 阅读全文

posted @ 2019-04-10 09:57 左手中倒影 阅读(588) 评论(0) 推荐(0) 编辑

2019年4月8日

摘要: 上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。 词性标注 训练 词性标注是分词后紧接着的一个任务,训练语料同上,接口如下: 命令行 java -cp hanlp.jar com.han 阅读全文

posted @ 2019-04-08 14:04 左手中倒影 阅读(306) 评论(0) 推荐(0) 编辑

2019年4月3日

摘要: 结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。 阅读全文

posted @ 2019-04-03 10:26 左手中倒影 阅读(515) 评论(0) 推荐(0) 编辑

2019年4月1日

摘要: 由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。后来寻找其他方案,在github上找到了HanLP开源库,其多音字转换速度非常快,但是没有针对Android平 阅读全文

posted @ 2019-04-01 13:54 左手中倒影 阅读(227) 评论(0) 推荐(0) 编辑

2019年3月29日

摘要: 汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 说明: l HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 l HanLP能够识别多音字,也能给繁体中文注拼音。 l 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArr 阅读全文

posted @ 2019-03-29 13:02 左手中倒影 阅读(26) 评论(0) 推荐(0) 编辑

摘要: HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 阅读全文

posted @ 2019-03-29 10:15 左手中倒影 阅读(170) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 19 下一页