左手中倒影 - 博客园

中文自然语言处理工具hanlp隐马角色标注详解

摘要：本文旨在介绍如何利用HanLP训练分词模型，包括语料格式、语料预处理、训练接口、输出格式等。目前HanLP内置的训练接口是针对一阶HMM-NGram设计的，另外附带了通用的语料加载工具，可以通过少量代码导出供其他训练工具使用的特定格式（如CRF++）。阅读全文

posted @ 2019-02-13 14:52 左手中倒影阅读(298) 评论(0) 推荐(0) 编辑

自然语言处理工具python调用hanlp中文实体识别

摘要： Hanlp作为一款重要的中文分词工具，在GitHub的用户量已经非常之高，应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。阅读全文

posted @ 2019-02-13 09:15 左手中倒影阅读(955) 评论(0) 推荐(0) 编辑

自然语言处理工具hanlp自定义词汇添加图解

摘要：过程分析 1.添加新词需要确定无缓存文件，否则无法使用成功，因为词典会优先加载缓存文件 2.再确认缓存文件不在时，打开本地词典按照格式添加自定义词汇。 3.调用分词函数重新生成缓存文件，这时会报一个找不到缓存文件的异常，不用管，因为加载词典进入内存是会优先加载缓存，缓存不在当然会报异常，然后加载词典阅读全文

posted @ 2019-01-27 09:53 左手中倒影阅读(386) 评论(0) 推荐(0) 编辑

在Hanlp词典手动添加未登录词的方式介绍

摘要：在使用Hanlp词典进行分词的时候，会出现分词不准的情况，原因是内置词典中并没有收录当前这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作呢，下面我们来看一下：一，在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录位于D:\hnlp\hanlp 阅读全文

posted @ 2019-01-25 09:46 左手中倒影阅读(243) 评论(0) 推荐(0) 编辑

如何使用Hanlp加载大字典

摘要：问题因为需要加载一个近 1G 的字典到Hanlp中，一开始使用了CustomDictionay.add() 方法来一条条的加载，果然到了中间，维护DoubleArraTre 的成本太高，添加一个节点，都会很长时间，本来时间长一点没有关系，只要训练出.bin 的文件，第二次加载就会很快，然而作为以阅读全文

posted @ 2019-01-23 09:50 左手中倒影阅读(264) 评论(0) 推荐(0) 编辑

spark集群使用hanlp进行分布式分词操作说明

摘要：本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作阅读全文

posted @ 2019-01-21 09:56 左手中倒影阅读(436) 评论(0) 推荐(0) 编辑

自然语言处理hanlp的入门基础

摘要：此文整理的基础是建立在hanlp较早版本的基础上的，虽然hanlp的最新1.7版本已经发布，但对于入门来说差别不大！分享一篇比较早的“旧文”给需要的朋友！阅读全文

posted @ 2019-01-18 10:26 左手中倒影阅读(624) 评论(0) 推荐(0) 编辑

基于CRF序列标注的中文依存句法分析器的Java实现

摘要：这是一个基于CRF的中文依存句法分析器，内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存，解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》，分析速度翻了一倍，达到了1262.8655 sent/s 阅读全文

posted @ 2019-01-16 11:25 左手中倒影阅读(275) 评论(0) 推荐(0) 编辑

基于结构化平均感知机的分词器Java实现

摘要：最近高产似母猪，写了个基于AP的中文分词器，在Bakeoff-05的MSR语料上F值有96.11%。最重要的是，只训练了5个迭代；包含语料加载等IO操作在内，整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后，F值才下降不到0.1个百分点，体积控制在11兆。如果训练一百个迭代，F值可达到96.31%，训练时间两分多钟。阅读全文

posted @ 2019-01-14 09:56 左手中倒影阅读(429) 评论(0) 推荐(0) 编辑

HanLP分词命名实体提取详解

摘要：文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。对于文本来说，由于语言组织形式各异，表达方式多样，文本里面提到的很多要素，如人名、手机号、组织名、地名等都称之为实体。在工程领域，招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体，能有效提高工作效率和挖掘实体之间的潜在联系。阅读全文

posted @ 2019-01-11 13:34 左手中倒影阅读(1773) 评论(1) 推荐(0) 编辑

公告