左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 19 下一页

2018年11月26日

摘要: 中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,; 阅读全文

posted @ 2018-11-26 09:59 左手中倒影 阅读(541) 评论(0) 推荐(0) 编辑

2018年11月23日

摘要: 文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。 阅读全文

posted @ 2018-11-23 09:03 左手中倒影 阅读(637) 评论(0) 推荐(0) 编辑

2018年11月21日

摘要: HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点,因此十分好上手,本文就结合 Spring Boot来将 HanLP用起来! 阅读全文

posted @ 2018-11-21 11:05 左手中倒影 阅读(601) 评论(0) 推荐(0) 编辑

2018年11月16日

摘要: hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 其核心词典形式如下: 自定义词典 自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更复杂的内容请 阅读全文

posted @ 2018-11-16 09:41 左手中倒影 阅读(1029) 评论(0) 推荐(0) 编辑

2018年11月14日

摘要: 算法介绍 最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。 关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。 计算公式比较简单,如下: 预处理 由于需要处理的候选词大约后3w+ 阅读全文

posted @ 2018-11-14 09:33 左手中倒影 阅读(711) 评论(0) 推荐(0) 编辑

2018年11月12日

摘要: 软件:IDEA2014、Maven、HanLP、JDK; 用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition; 用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已经包含在 阅读全文

posted @ 2018-11-12 10:20 左手中倒影 阅读(991) 评论(0) 推荐(0) 编辑

2018年11月9日

摘要: 环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP 各个版本的下载:https://github.com/hankcs/HanLP/releases 完毕后有一个报错: 字符类型对应表加载失败: D:/eclipse_workspace/HanLPTe 阅读全文

posted @ 2018-11-09 09:38 左手中倒影 阅读(359) 评论(0) 推荐(0) 编辑

2018年11月7日

摘要: 词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 阅读全文

posted @ 2018-11-07 10:23 左手中倒影 阅读(1312) 评论(0) 推荐(0) 编辑

2018年11月5日

摘要: HanLP 关键词提取算法分析详解 l 参考论文:《TextRank: Bringing Order into Texts》 l TextRank算法提取关键词的Java实现 l TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式 1. 论文 In this 阅读全文

posted @ 2018-11-05 09:52 左手中倒影 阅读(1487) 评论(0) 推荐(0) 编辑

2018年11月2日

摘要: HanLP作者在HanLP issue783:上面说:词典不等于分词、分词不等于自然语言处理;推荐使用语料而不是词典去修正统计模型。由于分词算法不能将一些“特定领域”的句子分词正确,于是为了纠正分词结果,把想要的分词结果添加到自定义词库中,但最好使用语料来纠正分词的结果。另外,作者还说了在以后版本中不保证继续支持动态添加自定义词典。以上是阅读源码过程中的一些粗浅理解,仅供参考。 阅读全文

posted @ 2018-11-02 10:43 左手中倒影 阅读(273) 评论(0) 推荐(0) 编辑

上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 19 下一页