左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 19 下一页

2019年3月1日

摘要: 如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。 阅读全文

posted @ 2019-03-01 08:59 左手中倒影 阅读(185) 评论(0) 推荐(0) 编辑

2019年2月27日

摘要: CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。 阅读全文

posted @ 2019-02-27 09:45 左手中倒影 阅读(560) 评论(0) 推荐(0) 编辑

2019年2月25日

摘要: 本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友! 安装调用 jieba“结巴”中文分词:做最好的 阅读全文

posted @ 2019-02-25 11:21 左手中倒影 阅读(3463) 评论(0) 推荐(1) 编辑

2019年2月22日

摘要: 在做考试系统需求时,后台题库系统提供录入题目的功能。在录入题目的时候,由于题目来源广泛,且参与录入题目的人有多位,因此容易出现录入重复题目的情况。所以需要实现语句相似度分析功能,从而筛选出重复的题目并人工处理之。 阅读全文

posted @ 2019-02-22 10:19 左手中倒影 阅读(1883) 评论(0) 推荐(0) 编辑

2019年2月20日

摘要: 语料库 本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。 用Map描述 这种关系可以用Java的Map<String, 阅读全文

posted @ 2019-02-20 14:24 左手中倒影 阅读(458) 评论(0) 推荐(0) 编辑

摘要: TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。本博文通过hanlp关键词提取的一个Demo,并通过图解的方式来讲解TextRank的算法。 阅读全文

posted @ 2019-02-20 09:34 左手中倒影 阅读(746) 评论(0) 推荐(0) 编辑

2019年2月18日

摘要: 这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口。 CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习。 默认模型训练自OpenCorpus/pku98/199801.txt,随hanlp 1.6.2以上版本发布。 语料格式等与感知机词法分析器相同, 阅读全文

posted @ 2019-02-18 14:43 左手中倒影 阅读(1707) 评论(0) 推荐(0) 编辑

摘要: 本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文章。 阅读全文

posted @ 2019-02-18 08:56 左手中倒影 阅读(776) 评论(0) 推荐(0) 编辑

2019年2月15日

摘要: 本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。 阅读全文

posted @ 2019-02-15 14:59 左手中倒影 阅读(514) 评论(0) 推荐(0) 编辑

摘要: 这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通。Hanlp安装包的下载以及安装其实之前就已经有过分享了。本篇文章主要还是备忘之用,同时算是给新手朋友的一些参考吧! 阅读全文

posted @ 2019-02-15 09:38 左手中倒影 阅读(131) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 19 下一页