左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 2 3 4 5 6 ··· 19 下一页

2019年7月15日

摘要: 本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。 1、python与jdk版本位数一致 2、pip install jpype1(python3.5) 3、类库hanlp.jar包、模型data包、配置文件hanlp.properties 阅读全文

posted @ 2019-07-15 09:19 左手中倒影 阅读(2677) 评论(0) 推荐(0) 编辑

2019年7月12日

摘要: 本篇分享一个hanlp添加自定义字典的方法,供大家参考! 总共分为两步: 第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。 第二步:去配置文件把自己添加自定义 阅读全文

posted @ 2019-07-12 09:29 左手中倒影 阅读(1220) 评论(1) 推荐(0) 编辑

2019年7月10日

摘要: 项目简要:关于java web的一个项目,用的Spring MVCd 框架。鉴于参与此次项目的人中并不是所人都做的Spring,为了能够提高效率,建议大家是先抛开SPring来写自己负责的模块,最后再把各个模块在Spring里面集成。 项目里有一个文本分析的模块是一个同学用hanlp写的,由于在最后 阅读全文

posted @ 2019-07-10 10:11 左手中倒影 阅读(224) 评论(0) 推荐(0) 编辑

2019年7月3日

摘要: 前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。 HanLP是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、 阅读全文

posted @ 2019-07-03 10:34 左手中倒影 阅读(2166) 评论(0) 推荐(0) 编辑

2019年7月1日

摘要: 摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词 Elasticsearch 默认分词 输出: IK分词 输出: hanlp分词 阅读全文

posted @ 2019-07-01 10:54 左手中倒影 阅读(976) 评论(0) 推荐(0) 编辑

2019年6月28日

摘要: 繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 ·说明 · HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字 阅读全文

posted @ 2019-06-28 09:27 左手中倒影 阅读(197) 评论(0) 推荐(0) 编辑

2019年6月26日

摘要: 基于字标注法的分词 中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。 1. 2-tag法 2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标 阅读全文

posted @ 2019-06-26 09:45 左手中倒影 阅读(266) 评论(0) 推荐(0) 编辑

2019年6月24日

摘要: 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。 阅读全文

posted @ 2019-06-24 10:11 左手中倒影 阅读(275) 评论(0) 推荐(0) 编辑

2019年6月21日

摘要: 一、Ansj 1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效: 比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。 (2)当自定义词库 “不好用”时,分词结果为:“不好用”,即此时自定义词库有效。 3 阅读全文

posted @ 2019-06-21 13:33 左手中倒影 阅读(360) 评论(0) 推荐(0) 编辑

2019年6月19日

摘要: 分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后 阅读全文

posted @ 2019-06-19 10:03 左手中倒影 阅读(1481) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 19 下一页