左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页

2018年12月17日

摘要: pyhanlp用户自定义词典添加实例说明 pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp 经过测试,HanLP比nltk在中文分词和实体识别方面都更好用. 如何向pyhanlp添加自定义的词典?以python 2.7.9 阅读全文

posted @ 2018-12-17 10:45 左手中倒影 阅读(1153) 评论(0) 推荐(0) 编辑

2018年12月14日

摘要: 前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看到,只能等一下了!下面分享一篇大神的文章,是关于在ubuntu下使用pycharm调用hanlp的实验。 阅读全文

posted @ 2018-12-14 09:11 左手中倒影 阅读(450) 评论(0) 推荐(0) 编辑

2018年12月12日

摘要: 最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取 阅读全文

posted @ 2018-12-12 15:47 左手中倒影 阅读(317) 评论(0) 推荐(0) 编辑

2018年12月10日

摘要: HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客: blog.csdn.net/article/details?id=50938796 不过该博客主要介绍的是windows如何使 阅读全文

posted @ 2018-12-10 10:00 左手中倒影 阅读(151) 评论(0) 推荐(0) 编辑

2018年12月7日

摘要: 中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合 阅读全文

posted @ 2018-12-07 10:13 左手中倒影 阅读(901) 评论(0) 推荐(0) 编辑

2018年12月5日

摘要: HanLP中人名识别分析详解 在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机构名识别错误 l ·关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi 阅读全文

posted @ 2018-12-05 09:54 左手中倒影 阅读(272) 评论(0) 推荐(0) 编辑

2018年12月3日

摘要: 本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组实现词共现频率的二分查找。当已经有缓存bin文件时,那直接读取构建start和pair数组,速度超快。 阅读全文

posted @ 2018-12-03 09:53 左手中倒影 阅读(210) 评论(0) 推荐(0) 编辑

2018年11月30日

摘要: 需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息 经过调研,找到了一下开源项目 1、word 分词器 2、ansj 分词器 3、mmseg4j 分词器 4、ik-analyzer 分词器 阅读全文

posted @ 2018-11-30 11:00 左手中倒影 阅读(226) 评论(0) 推荐(0) 编辑

摘要: 项目结构 该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载 项目配置 修改hanlp.properties: 1 #/Test/src/hanlp.properties: 2 #本配置文件中的路径的根目录 3 #root=E:/SourceC 阅读全文

posted @ 2018-11-30 10:59 左手中倒影 阅读(2998) 评论(0) 推荐(0) 编辑

2018年11月28日

摘要: 自然语言处理说白了,就是让机器去帮助我们完成一些语言层面的事情,典型的比如:情感分析、文本摘要、自动问答等等。我们日常场景中比较常见到的类似Siri、微软小冰之类的,这些的基础都是自然语言处理,另外还有一些语音处理,这就暂且不表了。总之,你看到的机器与人利用语言交互,用机器模拟人脑阅读,对话,评论等等这些的基础都是自然语言处理的范畴之内。 阅读全文

posted @ 2018-11-28 09:42 左手中倒影 阅读(209) 评论(0) 推荐(0) 编辑

上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页