摘要:
自然语言处理(NLP)中的很多问题,都需要给文档中的词语一个定量化的权重值,进而可以完后词语重要性的排序,相似度的计算,相关性的排序,等等。本文就目前流行的权重计算方案进行了一个列举。 1. TF-IDF wij=log(fij) x log(N/nj) wij是词语j在文档i中的权重, fij是词 阅读全文
摘要:
1. 读取TXT文件 今天的目标的读取内容像上面一样格式的TXT文件。有以下几种方式: 1)按行读取 运行结果如下: 注意:a. 按行读取返回的是list,而不是str。 b. 因为编码的不同,直接读取会乱码,这里将list中的元素按照它的编码格式进行了解码,然后打印输出就不会出错了。 c. 以‘r 阅读全文
摘要:
一. python简介 1. python 具有丰富强大的库,常被称为胶水语言,能够把用其他语言制作的各种模块很轻松地联结在一起 2. python强制使用空白符(white space)作为语句缩进。 3. 可以使用 py2exe等包转换成系统能够执行的文件。 4. Python的瓶颈不在于自身语 阅读全文
摘要:
我们在做各种模型训练时,往往会先将数据处理成矩阵,然后交给建模的人去训练。这时通常数据清洗者提交的是保存了矩阵的文件,一般为TXT或csv,接下来主要讲解我在实现这个过程中遇到的一些问题。 看上面这段d代码,通常我们会直接使用上面这两句代码来进行保存。但通常会遇到下面两类错误: 1. 类型匹配错误 阅读全文
摘要:
1.数据 目前的数据总体上分为结构化和非结构化的数据。结构化的数据是指实体和关系的规范和可预测的组织。大部分的需要处理的数据都属于非结构化的数据。 2.信息提取 简言之就是从文本中获取信息意义的方法。信息提取目前已经应用于很多领域,比如商业智能,简历收获,媒体分析,情感检测,专利检索及电子邮件扫描。 阅读全文
摘要:
一. 信息检索技术简述 信息检索技术是当前比较热门的一项技术,我们通常意义上的论文检索,搜索引擎都属于信息检索的范畴。信息检索的问题可以抽象为:在文档集合D上,对于关键词w[1]…w[k]组成的查询串q,返回一个按查询串q和文档d匹配度relevance(q,d)排序的相关文档列表D。 经典的信息检 阅读全文
摘要:
1.一元标注器(Unigram Tagging) 一元标注器利用一种简单的统计算法,对每个标注符分配最有可能的标记。例如:它将分配标记JJ给词frequent,因为frequent用作形容词更常见。一元标注器的行为与查找标注器相似,建立一元标注器的技术,称为训练。在下面的代码例子中,“训练”一个一元 阅读全文
摘要:
WordNet是面向语义的英语词典,与传统辞典类似,但结构更丰富。nltk中包括英语WordNet,共有155287个单词和117659个同义词。 1.寻找同义词 这里以motorcar为例,寻找它的同义词集。 1 >>> wn.synset('car.n.01').definition() //获 阅读全文
摘要:
词典或者词典资源是一个词和/或短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源附属于文本,而且通常在文本的基础上创建和丰富。下面列举几种nltk中的词典资源。 1. 词汇列表语料库 nltk中包括了一些仅仅包含词汇列表的语料库。词汇语料库是UNIX中的/usr/dict/words文 阅读全文
摘要:
条件频率分布就是频率分布的集合,每个频率分布有一个不同的“条件”,这个条件通常是文本的类别。当语料文本分为几类(文体,主题,作者等)时,可以计算每个类别独立的频率分布,这样,就可以通过条件频率分布研究类别之间的系统性差异。通常,我们用nltk的ConditionalFreqDist数据类型来实现的。 阅读全文