寒若雪 - 博客园

2017年6月6日

摘要：自然语言处理（NLP）中的很多问题，都需要给文档中的词语一个定量化的权重值，进而可以完后词语重要性的排序，相似度的计算，相关性的排序，等等。本文就目前流行的权重计算方案进行了一个列举。 1. TF-IDF wij=log(fij) x log(N/nj) wij是词语j在文档i中的权重， fij是词阅读全文

posted @ 2017-06-06 16:10 寒若雪阅读(3502) 评论(0) 推荐(0) 编辑

2017年6月3日

用Python读取文件

摘要： 1. 读取TXT文件今天的目标的读取内容像上面一样格式的TXT文件。有以下几种方式： 1）按行读取运行结果如下：注意：a. 按行读取返回的是list，而不是str。 b. 因为编码的不同，直接读取会乱码，这里将list中的元素按照它的编码格式进行了解码，然后打印输出就不会出错了。 c. 以‘r 阅读全文

posted @ 2017-06-03 16:46 寒若雪阅读(387) 评论(0) 推荐(0) 编辑

2017年6月1日

机器学习---笔记----Python基础

摘要：一. python简介 1. python 具有丰富强大的库，常被称为胶水语言，能够把用其他语言制作的各种模块很轻松地联结在一起 2. python强制使用空白符（white space）作为语句缩进。 3. 可以使用 py2exe等包转换成系统能够执行的文件。 4. Python的瓶颈不在于自身语阅读全文

posted @ 2017-06-01 15:43 寒若雪阅读(548) 评论(0) 推荐(0) 编辑

2017年5月23日

将数组,矩阵存入csv文件中

摘要：我们在做各种模型训练时，往往会先将数据处理成矩阵，然后交给建模的人去训练。这时通常数据清洗者提交的是保存了矩阵的文件，一般为TXT或csv，接下来主要讲解我在实现这个过程中遇到的一些问题。看上面这段d代码，通常我们会直接使用上面这两句代码来进行保存。但通常会遇到下面两类错误： 1. 类型匹配错误阅读全文

posted @ 2017-05-23 09:50 寒若雪阅读(8421) 评论(0) 推荐(0) 编辑

2017年2月23日

Python自然语言处理---信息提取

摘要： 1.数据目前的数据总体上分为结构化和非结构化的数据。结构化的数据是指实体和关系的规范和可预测的组织。大部分的需要处理的数据都属于非结构化的数据。 2.信息提取简言之就是从文本中获取信息意义的方法。信息提取目前已经应用于很多领域，比如商业智能，简历收获，媒体分析，情感检测，专利检索及电子邮件扫描。阅读全文

posted @ 2017-02-23 20:23 寒若雪阅读(4871) 评论(0) 推荐(0) 编辑

2017年2月22日

Python自然语言处理---TF-IDF模型

摘要：一. 信息检索技术简述信息检索技术是当前比较热门的一项技术，我们通常意义上的论文检索，搜索引擎都属于信息检索的范畴。信息检索的问题可以抽象为：在文档集合D上，对于关键词w[1]…w[k]组成的查询串q，返回一个按查询串q和文档d匹配度relevance(q,d)排序的相关文档列表D。经典的信息检阅读全文

posted @ 2017-02-22 20:08 寒若雪阅读(15323) 评论(4) 推荐(1) 编辑

2017年2月20日

python 自然语言处理（六）____N-gram标注

摘要： 1.一元标注器(Unigram Tagging) 一元标注器利用一种简单的统计算法，对每个标注符分配最有可能的标记。例如：它将分配标记JJ给词frequent，因为frequent用作形容词更常见。一元标注器的行为与查找标注器相似，建立一元标注器的技术，称为训练。在下面的代码例子中，“训练”一个一元阅读全文

posted @ 2017-02-20 17:00 寒若雪阅读(11627) 评论(0) 推荐(0) 编辑

2017年2月19日

python 自然语言处理（五）____WordNet

摘要： WordNet是面向语义的英语词典，与传统辞典类似，但结构更丰富。nltk中包括英语WordNet，共有155287个单词和117659个同义词。 1.寻找同义词这里以motorcar为例，寻找它的同义词集。 1 >>> wn.synset('car.n.01').definition() //获阅读全文

posted @ 2017-02-19 19:49 寒若雪阅读(11454) 评论(2) 推荐(3) 编辑

2017年2月18日

python 自然语言处理（四）____词典资源

摘要：词典或者词典资源是一个词和/或短语及其相关信息的集合，例如：词性和词意定义等相关信息。词典资源附属于文本，而且通常在文本的基础上创建和丰富。下面列举几种nltk中的词典资源。 1. 词汇列表语料库 nltk中包括了一些仅仅包含词汇列表的语料库。词汇语料库是UNIX中的/usr/dict/words文阅读全文

posted @ 2017-02-18 23:00 寒若雪阅读(1631) 评论(0) 推荐(0) 编辑

2017年2月17日

python 自然语言处理（三）____条件频率分布

摘要：条件频率分布就是频率分布的集合，每个频率分布有一个不同的“条件”，这个条件通常是文本的类别。当语料文本分为几类（文体，主题，作者等）时，可以计算每个类别独立的频率分布，这样，就可以通过条件频率分布研究类别之间的系统性差异。通常，我们用nltk的ConditionalFreqDist数据类型来实现的。阅读全文

posted @ 2017-02-17 16:24 寒若雪阅读(2211) 评论(0) 推荐(0) 编辑

公告