摘要: HanLP介绍:http://hanlp.linrunsoft.com/ github地址:https://github.com/hankcs/HanLP 说明:使用hanlp实现分词、智能推荐、关键字提取、摘要等,更多功能参考官网 项目结构 该项目中,.jar和data文件夹和.propertie 阅读全文
posted @ 2018-12-11 16:10 蓝蓝天白云 阅读(986) 评论(0) 推荐(0) 编辑
摘要: HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP能提供以下功能:关键词提取、短语提取、繁体转简体、简体转繁体、分词、词性标注、拼音转换、自动摘要、命名实体识别(地名、机构名 阅读全文
posted @ 2018-12-11 16:08 蓝蓝天白云 阅读(523) 评论(0) 推荐(0) 编辑
摘要: hanlp-ext 插件源码地址:http://git.oschina.net/hualongdata/hanlp-ext 或 https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分 阅读全文
posted @ 2018-12-11 16:08 蓝蓝天白云 阅读(1634) 评论(0) 推荐(0) 编辑
摘要: boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并不好,需要一遍一遍筛选【第一个标准筛选出80%的数据,然后制定第二个标准,继续筛选,然后制定第三个标准筛选,等等等等】 自己用了一下结巴分词,感觉对于人名,地名,机构名,只是泛泛地使用了一下。在实际分开的时候,并不能很 阅读全文
posted @ 2018-12-11 16:05 蓝蓝天白云 阅读(307) 评论(0) 推荐(0) 编辑