左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 2 3 4 5 6 7 ··· 19 下一页

2019年6月17日

摘要: 本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。 阅读全文

posted @ 2019-06-17 09:46 左手中倒影 阅读(899) 评论(0) 推荐(0) 编辑

2019年6月14日

摘要: 最近发现一个很勤快的大神在分享他的一些实操经验,看了一些他自己关于hanlp方面的文章,写的挺好的!转载过来分享给大家!以下为分享原文(无意义的内容已经做了删除) 如下图所示,HanLP的分类模块中单独封装了适用分类的分词器,当然这些分词器都是对HanLP提供的分词器的封装。分类模块中提供的分词器都 阅读全文

posted @ 2019-06-14 10:09 左手中倒影 阅读(493) 评论(0) 推荐(0) 编辑

2019年6月12日

摘要: 概述 本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小化安装的centos 7.5 ·elasticsearch 6.4.0 认识中文分词器 在博文elast 阅读全文

posted @ 2019-06-12 09:17 左手中倒影 阅读(2397) 评论(1) 推荐(0) 编辑

2019年6月5日

摘要: 今天介绍的内容是最短路径分词。最近换回了thinkpad x1,原因是mac的13.3寸的屏幕看代码实在是不方便,也可能是人老了吧,^_^。等把HanLP词法分析介绍结束后,还是会换回macbook pro的。个人有强迫症,只要看或写Java或C/C++代码或者用开发机的化,还是喜欢在windows 阅读全文

posted @ 2019-06-05 10:35 左手中倒影 阅读(328) 评论(0) 推荐(0) 编辑

2019年6月3日

摘要: 一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInte 阅读全文

posted @ 2019-06-03 10:23 左手中倒影 阅读(908) 评论(0) 推荐(0) 编辑

2019年5月31日

摘要: 一、中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1.from stanfordcorenlp import StanfordCoreNLP 2.with StanfordCor 阅读全文

posted @ 2019-05-31 10:14 左手中倒影 阅读(974) 评论(0) 推荐(0) 编辑

2019年5月29日

摘要: 以下分词工具均能在Python环境中直接调用(排名不分先后)。 1、jieba(结巴分词) 免费使用 2、HanLP(汉语言处理包) 免费使用 3、SnowNLP(中文的类库) 免费使用 4、FoolNLTK(中文处理工具包) 免费使用 5、Jiagu(甲骨NLP) 免费使用 6、pyltp(哈工大 阅读全文

posted @ 2019-05-29 09:37 左手中倒影 阅读(486) 评论(0) 推荐(0) 编辑

2019年5月27日

摘要: 在进行文本分类(非情感分类)时,我们经常只保留实词(名、动、形)等词,为了文本分类的分词方便,HanLP专门提供了实词分词器类NotionalTokenizer,同时在分类数据集加载处理时,默认使用了NotionalTokenizer分词器。 在HanLPJava版代码库中可以查看下边的文件中的函数 阅读全文

posted @ 2019-05-27 10:07 左手中倒影 阅读(876) 评论(0) 推荐(0) 编辑

2019年5月24日

摘要: 一、说明 博主的配置 1:window10 2:myeclipse 3:jdk1.8 备注:文章分享自贾继康的博客,博客使用的hanlp是1.6.8的版本。大家可以去下载最新的1.7版本了,也比较推荐使用最新的这个版本! 二、资源获取 1、hanlp jar包获取:可以github上下载。本文中使用 阅读全文

posted @ 2019-05-24 09:37 左手中倒影 阅读(343) 评论(0) 推荐(0) 编辑

2019年5月22日

摘要: 停用词表的修改 停用词表在“pyhanlp\static\data\dictionary”路径下的“stopwords.txt”文件中,CoreStopWordDictionary.apply方法支持去除停用词。如果需要修改停用词表,则直接编辑文件“stopwords.txt”,之后删除路径下的“s 阅读全文

posted @ 2019-05-22 09:03 左手中倒影 阅读(2598) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 19 下一页