随笔档案「2016年11月」 - 伏草惟存

【HanLP】HanLP中文自然语言处理工具实例演练

摘要：HanLP中文自然语言处理工具实例演练作者：白宁超 2016年11月25日13:45:13 目录【HanLP】HanLP资料链接汇总(1) 【HanLP】HanLP中文自然语言处理工具实例演练(2) 【HanLP】HanLP自然语言处理源码分析研究(3) 1 MyEclipse安装HanLP 【阅读全文

posted @ 2016-11-25 21:28 伏草惟存阅读(4103) 评论(0) 推荐(0)

【HanLP】资料链接汇总

摘要：Java中调用HanLP配置 HanLP自然语言处理包开源官方文档了解HanLP的全部自然语言处理HanLP 开源自由的汉语言处理包主页 GitHub源码基于hanLP的中文分词详解-MapReduce实现&自定义词典文件 hanlp中文分词器解读 HanLP下载中心 Solr集成HanLP中阅读全文

posted @ 2016-11-24 22:05 伏草惟存阅读(1433) 评论(0) 推荐(1)

【结巴分词资料汇编】结巴中文分词基本操作(3)

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：【结巴分词资料汇编】结巴中文分词基本操作(3) 阅读全文

posted @ 2016-11-24 18:54 伏草惟存阅读(6284) 评论(1) 推荐(0)

【结巴分词资料汇编】结巴中文分词源码分析(2)

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：结巴中文分词源码分析(2) 阅读全文

posted @ 2016-11-23 18:50 伏草惟存阅读(5244) 评论(0) 推荐(2)

【资料汇编】结巴中文分词官方文档和源码分析系列文章

摘要：摘要：结巴中文分词的特点如下：支持三种分词模式：（精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。）、支持繁体分词、支持自定义词典、MIT 授权协议。本文系列文章一是对官方文档的介绍，文章二是引用收集网友对结巴分词源码的分析，文章三是对基本操作代码示例演示。（本文原创汇编而成，转载请标明出处：结巴分词官方文档分析（1）阅读全文

posted @ 2016-11-23 16:54 伏草惟存阅读(4346) 评论(0) 推荐(2)

Python自然语言处理工具小结

摘要：Python自然语言处理工具小结作者：白宁超 2016年11月21日21:45:26 目录【Python NLP】干货！详述Python NLTK下如何使用stanford NLP工具包(1) 【Python NLP】Python 自然语言处理工具小结(2) 【Python NLP】Python 阅读全文

posted @ 2016-11-21 22:01 伏草惟存阅读(17417) 评论(3) 推荐(8)

【读书目录】

摘要：昔日读书，主要针对技术范畴，做一目录，做以鞭策自己，如镜静心：已读：在读：备读： PHP http://coffeephp.com/shares 阅读全文

posted @ 2016-11-11 11:29 伏草惟存阅读(258) 评论(0) 推荐(0)

【Reading Note】算法读书杂记

摘要：1 排序排序基本信息稳定性：排序前大的数在排序后，大的数依然保持不变就是稳定排序，反之不稳定内外排序：根据待排序的记录是否放在内存里面区分的。诸如：插入排序（直接插入&希尔）、交换排序（冒泡&快排）、选择排序（简单选择&堆排）、归并排序（归并）。算法性能影响：时间性能、辅助空间、算法复杂性（阅读全文

posted @ 2016-11-10 15:09 伏草惟存阅读(239) 评论(0) 推荐(0)

【Reading Note】Python读书杂记

摘要：赋值条件语句： any和all 元组：各种遍历序列的方式训练集和测试集语料划分：9：1 合并函数：阅读全文

posted @ 2016-11-10 01:35 伏草惟存阅读(350) 评论(0) 推荐(0)

【NLP】Python NLTK处理原始文本

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍：1）怎样编写程序访问本地和网络上的文件，从而获得无限的语言材料？2）如何把文档分割成单独的单词和标点符号，并进行文本语料上的分析？3）怎样编写程序产生格式化输出，并把结果保存在文件中？关于Python基础知识可以参看本人的【Python五篇慢慢弹】系列文章（本文原创编著，转载注明出处:Python NLTK处理原始文本）阅读全文

posted @ 2016-11-08 22:47 伏草惟存阅读(18931) 评论(0) 推荐(4)

Linux常用命令操作

摘要：系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT / 阅读全文

posted @ 2016-11-08 13:30 伏草惟存阅读(823) 评论(0) 推荐(0)

【NLP】Python NLTK获取文本语料和词汇资源

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍NLTK（Natural language Toolkit）的几种语料库，以及内置模块下函数的基本操作，诸如双连词、停用词、词频统计、构造自己的语料库等等，这些都是非常实用的。主要还是基础知识，关于python方面知识，可以参看本人的【Python五篇慢慢弹】系列文章（本文原创编著，转载注明出处:Python NLTK获取文本语料和词汇资源）阅读全文

posted @ 2016-11-07 13:16 伏草惟存阅读(9824) 评论(0) 推荐(2)

【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。而Stanford NLP 是由斯坦福大学的 NLP 小组开源的 Java 实现的 NLP 工具包，同样对 NLP 领域的各个问题提供了解决办法。斯坦福大学的 NLP 小组是世界知名的研究小组，能将 NLTK 和 Stanford NLP 这两个工具包结合起来使用，那对于自然语言开发者是再好不过的！在 2004 年 Steve Bird 在 NLTK 中加上了对 Stanford NLP 工具包的支持，通过调用外部的 jar 文件来使用 Stanford NLP 工具包的功能。本分析显得非常方便好用。本文主要介绍NLTK（Natural language Toolkit）下配置安装Stanford NLP ，以及对St 阅读全文

posted @ 2016-11-06 22:00 伏草惟存阅读(39421) 评论(2) 推荐(5)

【算法】数据结构面试算法题目

摘要：1 数组去重 python实现字典去重 python字符串追加去重排序 Java实现 set实现 java字符串追加去重实现 2 求数组中逆序对的总数，如输入数组1,2,3,4,5，6，7,0 逆序对7 Python实现 Java实现 3 无序数组A，找到第K个最大值，复杂度小于O（NlgN） P 阅读全文

posted @ 2016-11-04 15:10 伏草惟存阅读(1211) 评论(0) 推荐(0)

11 2016 档案