2017年6月6日
摘要: 自然语言处理(NLP)中的很多问题,都需要给文档中的词语一个定量化的权重值,进而可以完后词语重要性的排序,相似度的计算,相关性的排序,等等。本文就目前流行的权重计算方案进行了一个列举。 1. TF-IDF wij=log(fij) x log(N/nj) wij是词语j在文档i中的权重, fij是词 阅读全文
posted @ 2017-06-06 16:10 寒若雪 阅读(3502) 评论(0) 推荐(0) 编辑
  2017年6月3日
摘要: 1. 读取TXT文件 今天的目标的读取内容像上面一样格式的TXT文件。有以下几种方式: 1)按行读取 运行结果如下: 注意:a. 按行读取返回的是list,而不是str。 b. 因为编码的不同,直接读取会乱码,这里将list中的元素按照它的编码格式进行了解码,然后打印输出就不会出错了。 c. 以‘r 阅读全文
posted @ 2017-06-03 16:46 寒若雪 阅读(387) 评论(0) 推荐(0) 编辑
  2017年6月1日
摘要: 一. python简介 1. python 具有丰富强大的库,常被称为胶水语言,能够把用其他语言制作的各种模块很轻松地联结在一起 2. python强制使用空白符(white space)作为语句缩进。 3. 可以使用 py2exe等包转换成系统能够执行的文件。 4. Python的瓶颈不在于自身语 阅读全文
posted @ 2017-06-01 15:43 寒若雪 阅读(548) 评论(0) 推荐(0) 编辑
  2017年5月23日
摘要: 我们在做各种模型训练时,往往会先将数据处理成矩阵,然后交给建模的人去训练。这时通常数据清洗者提交的是保存了矩阵的文件,一般为TXT或csv,接下来主要讲解我在实现这个过程中遇到的一些问题。 看上面这段d代码,通常我们会直接使用上面这两句代码来进行保存。但通常会遇到下面两类错误: 1. 类型匹配错误 阅读全文
posted @ 2017-05-23 09:50 寒若雪 阅读(8421) 评论(0) 推荐(0) 编辑
  2017年2月23日
摘要: 1.数据 目前的数据总体上分为结构化和非结构化的数据。结构化的数据是指实体和关系的规范和可预测的组织。大部分的需要处理的数据都属于非结构化的数据。 2.信息提取 简言之就是从文本中获取信息意义的方法。信息提取目前已经应用于很多领域,比如商业智能,简历收获,媒体分析,情感检测,专利检索及电子邮件扫描。 阅读全文
posted @ 2017-02-23 20:23 寒若雪 阅读(4871) 评论(0) 推荐(0) 编辑
  2017年2月22日
摘要: 一. 信息检索技术简述 信息检索技术是当前比较热门的一项技术,我们通常意义上的论文检索,搜索引擎都属于信息检索的范畴。信息检索的问题可以抽象为:在文档集合D上,对于关键词w[1]…w[k]组成的查询串q,返回一个按查询串q和文档d匹配度relevance(q,d)排序的相关文档列表D。 经典的信息检 阅读全文
posted @ 2017-02-22 20:08 寒若雪 阅读(15323) 评论(4) 推荐(1) 编辑
  2017年2月20日
摘要: 1.一元标注器(Unigram Tagging) 一元标注器利用一种简单的统计算法,对每个标注符分配最有可能的标记。例如:它将分配标记JJ给词frequent,因为frequent用作形容词更常见。一元标注器的行为与查找标注器相似,建立一元标注器的技术,称为训练。在下面的代码例子中,“训练”一个一元 阅读全文
posted @ 2017-02-20 17:00 寒若雪 阅读(11627) 评论(0) 推荐(0) 编辑
  2017年2月19日
摘要: WordNet是面向语义的英语词典,与传统辞典类似,但结构更丰富。nltk中包括英语WordNet,共有155287个单词和117659个同义词。 1.寻找同义词 这里以motorcar为例,寻找它的同义词集。 1 >>> wn.synset('car.n.01').definition() //获 阅读全文
posted @ 2017-02-19 19:49 寒若雪 阅读(11454) 评论(2) 推荐(3) 编辑
  2017年2月18日
摘要: 词典或者词典资源是一个词和/或短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,而且通常在文本的基础上创建和丰富。下面列举几种nltk中的词典资源。 1. 词汇列表语料库 nltk中包括了一些仅仅包含词汇列表的语料库。词汇语料库是UNIX中的/usr/dict/words文 阅读全文
posted @ 2017-02-18 23:00 寒若雪 阅读(1631) 评论(0) 推荐(0) 编辑
  2017年2月17日
摘要: 条件频率分布就是频率分布的集合,每个频率分布有一个不同的“条件”,这个条件通常是文本的类别。当语料文本分为几类(文体,主题,作者等)时,可以计算每个类别独立的频率分布,这样,就可以通过条件频率分布研究类别之间的系统性差异。通常,我们用nltk的ConditionalFreqDist数据类型来实现的。 阅读全文
posted @ 2017-02-17 16:24 寒若雪 阅读(2211) 评论(0) 推荐(0) 编辑