左手中倒影 - 博客园

目前常用的自然语言处理开源项目/开发包大汇总

摘要：中文主要有：NLTK，FoolNLTK，HanLP（java版本），pyhanlp（python版本），Ansj，THULAC，结巴分词，FNLP，哈工大LTP，中科院ICTCLAS分词，GATE，SnowNLP，东北大学NiuTrans，NLPIR，；阅读全文

posted @ 2018-11-26 09:59 左手中倒影阅读(541) 评论(0) 推荐(0) 编辑

pyhanlp 文本聚类详细介绍

摘要：文本聚类简单点的来说就是将文本视作一个样本，在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。阅读全文

posted @ 2018-11-23 09:03 左手中倒影阅读(637) 评论(0) 推荐(0) 编辑

Spring Boot中对自然语言处理工具包hanlp的调用详解

摘要： HanLP 是基于 Java开发的 NLP工具包，由一系列模型与算法组成，目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点，因此十分好上手，本文就结合 Spring Boot来将 HanLP用起来！阅读全文

posted @ 2018-11-21 11:05 左手中倒影阅读(601) 评论(0) 推荐(0) 编辑

pyhanlp 停用词与用户自定义词典功能详解

摘要： hanlp的词典模式之前我们看了hanlp的词性标注，现在我们就要使用自定义词典与停用词功能了，首先关于HanLP的词性标注方式具体请看HanLP词性标注集。其核心词典形式如下：自定义词典自定义词典有多种添加模式，首先是展示的一个小例子，展示了词汇的动态增加与强行插入，删除等。更复杂的内容请阅读全文

posted @ 2018-11-16 09:41 左手中倒影阅读(1029) 评论(0) 推荐(0) 编辑

Hanlp分词实例：Java实现TFIDF算法

摘要：算法介绍最近要做领域概念的提取，TFIDF作为一个很经典的算法可以作为其中的一步处理。关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。计算公式比较简单，如下：预处理由于需要处理的候选词大约后3w+ 阅读全文

posted @ 2018-11-14 09:33 左手中倒影阅读(711) 评论(0) 推荐(0) 编辑

Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程

摘要：软件：IDEA2014、Maven、HanLP、JDK；用到的知识：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition; 用到的数据集：http://www.threedweb.cn/thread-1288-1-1.html（不需要下载，已经包含在阅读全文

posted @ 2018-11-12 10:20 左手中倒影阅读(991) 评论(0) 推荐(0) 编辑

自然语言处理之：搭建基于HanLP的开发环境（转）

摘要：环境搭建比FNLP的简单，具体参考：https://github.com/hankcs/HanLP 各个版本的下载：https://github.com/hankcs/HanLP/releases 完毕后有一个报错：字符类型对应表加载失败: D:/eclipse_workspace/HanLPTe 阅读全文

posted @ 2018-11-09 09:38 左手中倒影阅读(359) 评论(0) 推荐(0) 编辑

hanlp源码解析之中文分词算法详解

摘要：词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续，同时也可能有多个前驱，它们构成的图我称作词图。阅读全文

posted @ 2018-11-07 10:23 左手中倒影阅读(1312) 评论(0) 推荐(0) 编辑

HanLP 关键词提取算法分析详解

摘要： HanLP 关键词提取算法分析详解 l 参考论文：《TextRank: Bringing Order into Texts》 l TextRank算法提取关键词的Java实现 l TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式 1. 论文 In this 阅读全文

posted @ 2018-11-05 09:52 左手中倒影阅读(1487) 评论(0) 推荐(0) 编辑

HanLP用户自定义词典源码分析详解

摘要： HanLP作者在HanLP issue783:上面说：词典不等于分词、分词不等于自然语言处理；推荐使用语料而不是词典去修正统计模型。由于分词算法不能将一些“特定领域”的句子分词正确，于是为了纠正分词结果，把想要的分词结果添加到自定义词库中，但最好使用语料来纠正分词的结果。另外，作者还说了在以后版本中不保证继续支持动态添加自定义词典。以上是阅读源码过程中的一些粗浅理解，仅供参考。阅读全文

posted @ 2018-11-02 10:43 左手中倒影阅读(273) 评论(0) 推荐(0) 编辑

公告