左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

04 2019 档案

摘要:1. 整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。 第二步:使用停用词表,去除分好的词中的停用词。 2. 中文文本分词环境配置 使用的HanLP-汉语言处理包进行中文文本分词。 ·HanLP-汉语言处理包下载,可以去github上下载 ·HanLP 的 阅读全文

posted @ 2019-04-30 09:09 左手中倒影 阅读(1482) 评论(0) 推荐(0) 编辑

摘要:说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现 按hanlp作者述 trie后期可能会取消 目前CustomDictionary使用DA 阅读全文

posted @ 2019-04-26 10:38 左手中倒影 阅读(545) 评论(1) 推荐(0) 编辑

摘要:·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析) 阅读全文

posted @ 2019-04-24 10:44 左手中倒影 阅读(701) 评论(0) 推荐(0) 编辑

摘要:基于 HanLP 的 Elasticsearch 中文分词插件,核心功能: 兼容 ES 5.x-7.x; 内置词典,无需额外配置即可使用; 支持用户自定义词典; 支持远程词典热更新(待开发); 内置多种分词模式,适合不同场景; 拼音过滤器(待开发); 简繁体转换过滤器(待开发)。 版本 插件版本和 阅读全文

posted @ 2019-04-22 13:19 左手中倒影 阅读(560) 评论(0) 推荐(0) 编辑

摘要:文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路 使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。 语料库选取1998年01月的人民日报语料库。199801人民日报语料 该词库带有词性标注,为了遵循LTP的训练数据集格式,需要处理掉词性标 阅读全文

posted @ 2019-04-19 10:08 左手中倒影 阅读(406) 评论(0) 推荐(0) 编辑

摘要:基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。 阅读全文

posted @ 2019-04-15 09:44 左手中倒影 阅读(698) 评论(0) 推荐(0) 编辑

摘要:HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装 pip install pyhanlp 使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动配置或Windows指南。 命令行 中文分词 使用命令hanlp segment进入交互分词模式,输入一 阅读全文

posted @ 2019-04-12 10:25 左手中倒影 阅读(1128) 评论(0) 推荐(0) 编辑

摘要:本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。 阅读全文

posted @ 2019-04-10 09:57 左手中倒影 阅读(600) 评论(0) 推荐(0) 编辑

摘要:上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。 词性标注 训练 词性标注是分词后紧接着的一个任务,训练语料同上,接口如下: 命令行 java -cp hanlp.jar com.han 阅读全文

posted @ 2019-04-08 14:04 左手中倒影 阅读(321) 评论(0) 推荐(0) 编辑

摘要:结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。 阅读全文

posted @ 2019-04-03 10:26 左手中倒影 阅读(528) 评论(0) 推荐(0) 编辑

摘要:由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。后来寻找其他方案,在github上找到了HanLP开源库,其多音字转换速度非常快,但是没有针对Android平 阅读全文

posted @ 2019-04-01 13:54 左手中倒影 阅读(237) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示