左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页

2019年1月9日

摘要: 谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。 阅读全文

posted @ 2019-01-09 10:08 左手中倒影 阅读(311) 评论(0) 推荐(0) 编辑

2019年1月7日

摘要: 如果想要只获取词性也是可以的,因为原分词器返回的是Java中的ArrayList属性,list中的每个单元都是一个term类,因此我们也可以通过获取term中的word字段来直接获取词语,或者nature属性,直接获取词性。这一特征,我们在之后也会用到。 阅读全文

posted @ 2019-01-07 10:14 左手中倒影 阅读(1241) 评论(0) 推荐(0) 编辑

2019年1月4日

摘要: HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 阅读全文

posted @ 2019-01-04 09:47 左手中倒影 阅读(709) 评论(0) 推荐(0) 编辑

2019年1月2日

摘要: 【环境】python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp # 安装pyhanlp 进入python安装包路径,如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://hanlp.pr 阅读全文

posted @ 2019-01-02 09:48 左手中倒影 阅读(704) 评论(0) 推荐(0) 编辑

2018年12月28日

摘要: 这是一种简单的多标注中文分词解决方案,可以在不增加模型复杂度的情况下联合多个语料库训练单个模型。该方案虽然简单,但的确带来了显著的性能提升(特别是对于小数据集如WTB)。同时我们也注意到特别大的数据集受益很小或无法从中受益(MSR),留作未来研究。我们希望该方法成为多标准中文分词的一个baseline,或生产系统中的一个物美价廉的拓展。 阅读全文

posted @ 2018-12-28 11:30 左手中倒影 阅读(323) 评论(0) 推荐(0) 编辑

2018年12月26日

摘要: Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享 阅读全文

posted @ 2018-12-26 10:19 左手中倒影 阅读(1477) 评论(0) 推荐(0) 编辑

2018年12月24日

摘要: 在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 阅读全文

posted @ 2018-12-24 09:45 左手中倒影 阅读(161) 评论(0) 推荐(0) 编辑

摘要: 大数据在政务当中的应用对于提高问题解决的效率可谓大有帮助,但政务大数据平台的应用开发远不止提高问题解决效率这么简单。当然,作为大数据平台应用的开发者来说,我们要做的是还是从底层的技术层面做好解决方案。关于政务大数据平台的解决方案此前有分享过智慧人社的和城市智慧停车的大数据平台解决方案,本篇给大家分享一个新的政务大数据平台管理案例——大快搜索的城市数据运河政务大数据管理运营平台。 阅读全文

posted @ 2018-12-24 09:43 左手中倒影 阅读(225) 评论(0) 推荐(0) 编辑

2018年12月21日

摘要: 依存句法分析器 在HanLP中一共有两种句法分析器 ·依存句法分析 (1)基于神经网络的高性能依存句法分析器 (2)MaxEnt依存句法分析 基于神经网络的高性能依存句法分析器 HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Acc 阅读全文

posted @ 2018-12-21 10:28 左手中倒影 阅读(405) 评论(0) 推荐(0) 编辑

2018年12月19日

摘要: Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用。有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解决方法,大家可以借鉴学习以下! 阅读全文

posted @ 2018-12-19 09:49 左手中倒影 阅读(615) 评论(0) 推荐(0) 编辑

上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页