摘要: 前言:分析关键词如何在一段文本之中提取出相应的关键词呢? 之前我有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。 下载:.jar .properties data等文件这里提供官网下载地址 HanLP下载,1.3 阅读全文
posted @ 2018-12-20 16:07 蓝蓝天白云 阅读(2931) 评论(0) 推荐(0) 编辑
摘要: 最近一直比较忙,好多私信也没时间回复。以后要完全从CV转NLP,所以博客内容可能要作调整了。 Hanlp是最近学习的一个自然语言处理包,本篇文章将一些使用过程之中遇到的bug放到这里做一个备忘记录,有时间一并联系作者更改。 -Predefine类的好多预定义tag没有在核心词典中。 这个造成的问题就 阅读全文
posted @ 2018-12-20 15:39 蓝蓝天白云 阅读(142) 评论(0) 推荐(0) 编辑
摘要: HanLP介绍:http://hanlp.linrunsoft.com/ github地址:https://github.com/hankcs/HanLP 说明:使用hanlp实现分词、智能推荐、关键字提取、摘要等,更多功能参考官网 项目结构 该项目中,.jar和data文件夹和.propertie 阅读全文
posted @ 2018-12-11 16:10 蓝蓝天白云 阅读(986) 评论(0) 推荐(0) 编辑
摘要: HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP能提供以下功能:关键词提取、短语提取、繁体转简体、简体转繁体、分词、词性标注、拼音转换、自动摘要、命名实体识别(地名、机构名 阅读全文
posted @ 2018-12-11 16:08 蓝蓝天白云 阅读(523) 评论(0) 推荐(0) 编辑
摘要: hanlp-ext 插件源码地址:http://git.oschina.net/hualongdata/hanlp-ext 或 https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分 阅读全文
posted @ 2018-12-11 16:08 蓝蓝天白云 阅读(1634) 评论(0) 推荐(0) 编辑
摘要: boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并不好,需要一遍一遍筛选【第一个标准筛选出80%的数据,然后制定第二个标准,继续筛选,然后制定第三个标准筛选,等等等等】 自己用了一下结巴分词,感觉对于人名,地名,机构名,只是泛泛地使用了一下。在实际分开的时候,并不能很 阅读全文
posted @ 2018-12-11 16:05 蓝蓝天白云 阅读(307) 评论(0) 推荐(0) 编辑