摘要: N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N 阅读全文
posted @ 2018-12-20 16:24 蓝蓝天白云 阅读(884) 评论(0) 推荐(0) 编辑
摘要: 前言:分析关键词如何在一段文本之中提取出相应的关键词呢? 之前我有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。 下载:.jar .properties data等文件这里提供官网下载地址 HanLP下载,1.3 阅读全文
posted @ 2018-12-20 16:07 蓝蓝天白云 阅读(2931) 评论(0) 推荐(0) 编辑
摘要: 最近一直比较忙,好多私信也没时间回复。以后要完全从CV转NLP,所以博客内容可能要作调整了。 Hanlp是最近学习的一个自然语言处理包,本篇文章将一些使用过程之中遇到的bug放到这里做一个备忘记录,有时间一并联系作者更改。 -Predefine类的好多预定义tag没有在核心词典中。 这个造成的问题就 阅读全文
posted @ 2018-12-20 15:39 蓝蓝天白云 阅读(142) 评论(0) 推荐(0) 编辑