左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 19 下一页

2019年2月13日

摘要: 本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++)。 阅读全文

posted @ 2019-02-13 14:52 左手中倒影 阅读(298) 评论(0) 推荐(0) 编辑

摘要: Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。 阅读全文

posted @ 2019-02-13 09:15 左手中倒影 阅读(955) 评论(0) 推荐(0) 编辑

2019年1月27日

摘要: 过程分析 1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件 2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇。 3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常,然后加载词典 阅读全文

posted @ 2019-01-27 09:53 左手中倒影 阅读(386) 评论(0) 推荐(0) 编辑

2019年1月25日

摘要: 在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下: 一,在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录 位于D:\hnlp\hanlp 阅读全文

posted @ 2019-01-25 09:46 左手中倒影 阅读(243) 评论(0) 推荐(0) 编辑

2019年1月23日

摘要: 问题 因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以 阅读全文

posted @ 2019-01-23 09:50 左手中倒影 阅读(264) 评论(0) 推荐(0) 编辑

2019年1月21日

摘要: 本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作 阅读全文

posted @ 2019-01-21 09:56 左手中倒影 阅读(436) 评论(0) 推荐(0) 编辑

2019年1月18日

摘要: 此文整理的基础是建立在hanlp较早版本的基础上的,虽然hanlp的最新1.7版本已经发布,但对于入门来说差别不大!分享一篇比较早的“旧文”给需要的朋友! 阅读全文

posted @ 2019-01-18 10:26 左手中倒影 阅读(624) 评论(0) 推荐(0) 编辑

2019年1月16日

摘要: 这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8655 sent/s 阅读全文

posted @ 2019-01-16 11:25 左手中倒影 阅读(275) 评论(0) 推荐(0) 编辑

2019年1月14日

摘要: 最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟。 阅读全文

posted @ 2019-01-14 09:56 左手中倒影 阅读(429) 评论(0) 推荐(0) 编辑

2019年1月11日

摘要: 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、组织名、地名等都称之为实体。在工程领域,招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体,能有效提高工作效率和挖掘实体之间的潜在联系。 阅读全文

posted @ 2019-01-11 13:34 左手中倒影 阅读(1773) 评论(1) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 19 下一页