左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 19 下一页

2018年10月31日

摘要: HanLP方法封装类:1. # -*- coding:utf-8 -*-2. # Filename: main.py3.4.from jpype import *5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp- 阅读全文

posted @ 2018-10-31 10:18 左手中倒影 阅读(173) 评论(0) 推荐(0) 编辑

2018年10月29日

摘要: 在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: u u名字识别的问题 #387 u u机构名识别错误 u u关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi角色标注模型下的机构名识别 分 阅读全文

posted @ 2018-10-29 10:07 左手中倒影 阅读(229) 评论(0) 推荐(0) 编辑

2018年10月26日

摘要: 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。 如何界定分词 中文分词指的是将一个汉字序列切分成一个 阅读全文

posted @ 2018-10-26 11:07 左手中倒影 阅读(695) 评论(0) 推荐(0) 编辑

2018年10月22日

摘要: 这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词结果:[签约/v, 仪式/n, 前/f, ,/w, 秦光荣/ 阅读全文

posted @ 2018-10-22 14:22 左手中倒影 阅读(305) 评论(0) 推荐(0) 编辑

2018年10月19日

摘要: 与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。 阅读全文

posted @ 2018-10-19 10:22 左手中倒影 阅读(397) 评论(0) 推荐(0) 编辑

2018年10月17日

摘要: 生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。 阅读全文

posted @ 2018-10-17 10:34 左手中倒影 阅读(2513) 评论(0) 推荐(0) 编辑

2018年10月15日

摘要: 文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。 阅读全文

posted @ 2018-10-15 10:20 左手中倒影 阅读(400) 评论(0) 推荐(0) 编辑

2018年10月12日

摘要: 中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。 阅读全文

posted @ 2018-10-12 09:57 左手中倒影 阅读(547) 评论(0) 推荐(0) 编辑

2018年10月10日

摘要: 之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来, 其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录 data与hanlp.properties合成一个data.jar文件. 1 阅读全文

posted @ 2018-10-10 09:12 左手中倒影 阅读(374) 评论(0) 推荐(0) 编辑

2018年10月8日

摘要: 1、通过git下载分词器代码。 连接如下:https://gitee.com/hualongdata/hanlp-ext hanlp官网如下:http://hanlp.linrunsoft.com/ 2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可 阅读全文

posted @ 2018-10-08 14:26 左手中倒影 阅读(796) 评论(0) 推荐(0) 编辑

上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 19 下一页