/*自定义导航栏*/

11 2016 档案

摘要:HanLP中文自然语言处理工具实例演练 作者:白宁超 2016年11月25日13:45:13 目录 【HanLP】HanLP资料链接汇总(1) 【HanLP】HanLP中文自然语言处理工具实例演练(2) 【HanLP】HanLP自然语言处理源码分析研究(3) 1 MyEclipse安装HanLP 【 阅读全文
posted @ 2016-11-25 21:28 伏草惟存 阅读(4046) 评论(0) 推荐(0) 编辑
摘要:Java中调用HanLP配置 HanLP自然语言处理包开源官方文档 了解HanLP的全部 自然语言处理HanLP 开源自由的汉语言处理包主页 GitHub源码 基于hanLP的中文分词详解-MapReduce实现&自定义词典文件 hanlp中文分词器解读 HanLP下载中心 Solr集成HanLP中 阅读全文
posted @ 2016-11-24 22:05 伏草惟存 阅读(1404) 评论(0) 推荐(1) 编辑
摘要:摘要:结巴中文分词的特点如下:支持三种分词模式:(精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。)、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍,文章二是引用收集网友对结巴分词源码的分析,文章三是对基本操作代码示例演示。(本文原创汇编而成,转载请标明出处:【结巴分词资料汇编】结巴中文分词基本操作(3) 阅读全文
posted @ 2016-11-24 18:54 伏草惟存 阅读(6141) 评论(1) 推荐(0) 编辑
摘要:摘要:结巴中文分词的特点如下:支持三种分词模式:(精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。)、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍,文章二是引用收集网友对结巴分词源码的分析,文章三是对基本操作代码示例演示。(本文原创汇编而成,转载请标明出处:结巴中文分词源码分析(2) 阅读全文
posted @ 2016-11-23 18:50 伏草惟存 阅读(5121) 评论(0) 推荐(2) 编辑
摘要:摘要:结巴中文分词的特点如下:支持三种分词模式:(精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。)、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍,文章二是引用收集网友对结巴分词源码的分析,文章三是对基本操作代码示例演示。(本文原创汇编而成,转载请标明出处:结巴分词官方文档分析(1) 阅读全文
posted @ 2016-11-23 16:54 伏草惟存 阅读(4250) 评论(0) 推荐(2) 编辑
摘要:Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 目录 【Python NLP】干货!详述Python NLTK下如何使用stanford NLP工具包(1) 【Python NLP】Python 自然语言处理工具小结(2) 【Python NLP】Python 阅读全文
posted @ 2016-11-21 22:01 伏草惟存 阅读(17246) 评论(3) 推荐(8) 编辑
摘要:昔日读书,主要针对技术范畴,做一目录,做以鞭策自己,如镜静心: 已读: 在读: 备读: PHP http://coffeephp.com/shares 阅读全文
posted @ 2016-11-11 11:29 伏草惟存 阅读(247) 评论(0) 推荐(0) 编辑
摘要:1 排序 排序基本信息 稳定性:排序前大的数在排序后,大的数依然保持不变就是稳定排序,反之不稳定 内外排序:根据待排序的记录是否放在内存里面区分的。诸如:插入排序(直接插入&希尔)、交换排序(冒泡&快排)、选择排序(简单选择&堆排)、归并排序(归并)。 算法性能影响:时间性能、辅助空间、算法复杂性( 阅读全文
posted @ 2016-11-10 15:09 伏草惟存 阅读(221) 评论(0) 推荐(0) 编辑
摘要:赋值 条件语句: any和all 元组: 各种遍历序列的方式 训练集和测试集语料划分:9:1 合并 函数: 阅读全文
posted @ 2016-11-10 01:35 伏草惟存 阅读(340) 评论(0) 推荐(0) 编辑
摘要:摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍:1)怎样编写程序访问本地和网络上的文件,从而获得无限的语言材料?2)如何把文档分割成单独的单词和标点符号,并进行文本语料上的分析?3)怎样编写程序产生格式化输出,并把结果保存在文件中?关于Python基础知识可以参看本人的【Python五篇慢慢弹】系列文章(本文原创编著,转载注明出处:Python NLTK处理原始文本) 阅读全文
posted @ 2016-11-08 22:47 伏草惟存 阅读(18852) 评论(0) 推荐(4) 编辑
摘要:系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT / 阅读全文
posted @ 2016-11-08 13:30 伏草惟存 阅读(808) 评论(0) 推荐(0) 编辑
摘要:摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍NLTK(Natural language Toolkit)的几种语料库,以及内置模块下函数的基本操作,诸如双连词、停用词、词频统计、构造自己的语料库等等,这些都是非常实用的。主要还是基础知识,关于python方面知识,可以参看本人的【Python五篇慢慢弹】系列文章(本文原创编著,转载注明出处:Python NLTK获取文本语料和词汇资源) 阅读全文
posted @ 2016-11-07 13:16 伏草惟存 阅读(9680) 评论(0) 推荐(2) 编辑
摘要:摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。而Stanford NLP 是由斯坦福大学的 NLP 小组开源的 Java 实现的 NLP 工具包,同样对 NLP 领域的各个问题提供了解决办法。斯坦福大学的 NLP 小组是世界知名的研究小组,能将 NLTK 和 Stanford NLP 这两个工具包结合起来使用,那对于自然语言开发者是再好不过的!在 2004 年 Steve Bird 在 NLTK 中加上了对 Stanford NLP 工具包的支持,通过调用外部的 jar 文件来使用 Stanford NLP 工具包的功能。本分析显得非常方便好用。本文主要介绍NLTK(Natural language Toolkit)下配置安装Stanford NLP ,以及对St 阅读全文
posted @ 2016-11-06 22:00 伏草惟存 阅读(39089) 评论(2) 推荐(5) 编辑
摘要:1 数组去重 python实现 字典去重 python字符串追加去重排序 Java实现 set实现 java字符串追加去重实现 2 求数组中逆序对的总数,如输入数组1,2,3,4,5,6,7,0 逆序对7 Python实现 Java实现 3 无序数组A,找到第K个最大值,复杂度小于O(NlgN) P 阅读全文
posted @ 2016-11-04 15:10 伏草惟存 阅读(1179) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示