摘要: 本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z##########python可以用easy_install安装一些软件############1.JPype使用介绍参考:http://michael-paul.iteye.com/blog/ 阅读全文
posted @ 2019-02-18 09:25 蓝蓝天白云 阅读(262) 评论(0) 推荐(0) 编辑
摘要: HanLP由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties,请前往项目主页下载最新版:https://github.com/hankcs/HanLP/releases。对于非portable版,下载后,你需要编辑配置文件第一行的root指向data的父 阅读全文
posted @ 2019-02-18 09:24 蓝蓝天白云 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 【1】确定正确安装配置Java和Eclipse 【2】下载HanLp的各种东西 http://hanlp.linrunsoft.com/services.html 下载这四个文件到本地,我是放在桌面的一个文件夹了。 【3】 把jar包导入到Eclipse 在Eclipse先新建一个项目File——N 阅读全文
posted @ 2019-02-12 16:10 蓝蓝天白云 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 词图 词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在理”这 阅读全文
posted @ 2019-02-12 16:07 蓝蓝天白云 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 事情是这样的,最近实验室在搞一个Java Web的项目,用的Spring MVC的框架。项目组有很多没做过Spring的学弟学妹,为了提高效率,我让大家自己先抛开Spring来写自己负责的模块,我来把各个模块在Spring里集成。 项目里有一个文本分析的模块是一个学妹负责的,里面用到了HanLP,我 阅读全文
posted @ 2019-02-12 16:05 蓝蓝天白云 阅读(830) 评论(0) 推荐(0) 编辑
摘要: 下载HanLP-1.3.4.zip 下载hanlp-1.3.4-release 下载hanlp.properties 在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data #本配置文件中的路径的根目录, 阅读全文
posted @ 2019-01-17 17:09 蓝蓝天白云 阅读(5354) 评论(0) 推荐(0) 编辑
摘要: 学习内容 在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(jieba)的效果要好,因为都是同一模式的分词,分出来的词应该都 阅读全文
posted @ 2019-01-17 09:57 蓝蓝天白云 阅读(2016) 评论(0) 推荐(0) 编辑
摘要: 大快搜索自荣获“2018中国大数据企业50强”殊荣,12月20日在由工信部指导,中国电子信息产业化发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”称号,入选中国数字化转型TOP100服务商,《城市数据运河》获评优秀政务大数据解决方案。 图:工业和信息化部 阅读全文
posted @ 2018-12-24 09:29 蓝蓝天白云 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 图:大快搜索获评“2018中国大数据基础软件领域领军企业” 在本届2018中国软件大会上,不仅宣传并成立了数字转型促进会,还发 阅读全文
posted @ 2018-12-24 09:28 蓝蓝天白云 阅读(149) 评论(0) 推荐(0) 编辑
摘要: N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N 阅读全文
posted @ 2018-12-20 16:24 蓝蓝天白云 阅读(884) 评论(0) 推荐(0) 编辑