Hadoop TDG 2 -- introduction

摘要: 首先我们为什么需要Hadoop? The good news is that Big Data is here. The bad news is that we are struggling to store and analyze it. 面对海量的数据,我们需要高效的分析和存储他们,而Hadoop可以做到这点, This, in a nutshell, is what Hadoop p... 阅读全文
posted @ 2011-07-04 20:57 fxjwind 阅读(731) 评论(0) 推荐(0) 编辑

Extracting Information from Text With NLTK

摘要: 因为现实中的数据多为‘非结构化数据’,比如一般的txt文档,或是‘半结构化数据’,比如html,对于这样的数据需要采用一些技术才能从中提取 出有用的信息。如果所有数据都是‘结构化数据’,比如Xml或关系数据库,那么就不需要特别去提取了,可以根据元数据去任意取到你想要的信息。那么就来讨论一下用NLTK来实现文本信息提取的方法,first, the raw text of the document is split into sentences using a sentence segmenter, and each sentence is further subdivided into word 阅读全文
posted @ 2011-07-04 20:52 fxjwind 阅读(449) 评论(0) 推荐(0) 编辑

Classify Text With NLTK

摘要: Classification is the task of choosing the correct class label for a given input.A classifier is called supervised if it is built based on training corpora containing the correct label for each input.这里就以一个例子来说明怎样用nltk来实现分类器训练和分类一个简单的分类任务,给定一个名字,判断其性别,就是在male,female两类进行分类好,先来训练,训练就要有corpus,就是分好类的名字的 阅读全文
posted @ 2011-07-04 20:48 fxjwind 阅读(697) 评论(0) 推荐(0) 编辑

POS Tagging with NLTK

摘要: POS tagging :part-of-speech tagging , or word classes or lexical categories . 说法很多其实就是词性标注。那么用nltk的工具集的off-the-shelf工具可以简单的对文本进行POS tagging>>> text = nltk.word_tokenize("And now for something completely different")>>> nltk.pos_tag(text)[(''And'', '' 阅读全文
posted @ 2011-07-04 20:46 fxjwind 阅读(1298) 评论(0) 推荐(0) 编辑

MG--索引构造

摘要: 顾名思义这章就是要谈怎样构造索引的问题,或者说在有限内存和有限时间内,怎么样高效的对大数据集构造索引文件。一旦有了这个索引文件,那么索引的压缩,基于索引的排序,前面的章节都已经讲过。 链接列表 先来看看最一般的方法,在内存中构建这样的数据结构,包含一个term字典,这个字典本身可以用数组,hash表,二分查找树来实现,字典中的每 项,都包含一个指向term的倒排列表的指针,那么对于一个term的倒... 阅读全文
posted @ 2011-07-04 20:40 fxjwind 阅读(340) 评论(0) 推荐(0) 编辑

MG--查询

摘要: 查询 就是如何利用建好的索引来找到想要的文本,那么会介绍两种查询,一种是布尔查询(Boolean Query),另一种是排名查询(Ranked Query).布尔查询 包含了一个术语列表,这些术语通过布尔操作符相连(and,or,not),查询的答案是满足规定条件的文档。布尔查询的缺点是会不可避免的返回很多无关的答案,而且查询一些小的变动会导致结果完全不同。因为布尔查询是机械的,必须精确匹配布尔... 阅读全文
posted @ 2011-07-04 20:39 fxjwind 阅读(692) 评论(2) 推荐(0) 编辑

MG--索引

摘要: 在这个信息爆炸的年代, 信息索引的重要性不言而喻。现在主要的索引结构就是倒排索引,又称为记录文件(posting file),词汇索引(concordance)。其他的还有签名文件(signature file), 和 位图(bitmap)。倒排索引 倒排索引在结构上分为,倒排列表(inverted list)和字典, 倒排列表就是记录一列指针, 每个指针表示了术语所在的文档的编号,甚至是在文档中的位置。而字典就是记录了术语和倒排列表的对应关系。举个例子,cold (2;1,4)表示cold这个词出现了2次,分别在第1和第4号文档里面。那么索引有个粒度的问题,上面的例子的索引的粒度是文档级的, 阅读全文
posted @ 2011-07-04 20:34 fxjwind 阅读(397) 评论(0) 推荐(0) 编辑

Managing Gigabytes--文本压缩

摘要: 开门见山,文本压缩可以归纳为两大类, 符号方法和字典方法, 下面分别介绍下: 1)符号方法,symbolwise method普通编码方式是每个字符都采用相同位数编码, 比如asc码, 每个字符都是8位编码。那么现在要压缩,就是要用更少的位数来表示字符。显而易见, 我们只须用较小的位数来表示高概率字符, 用较长的位数来表示低概率字符,这样平均下来就可以实现压缩。那么这里面就有两个点:a)怎么来确... 阅读全文
posted @ 2011-07-04 20:32 fxjwind 阅读(472) 评论(0) 推荐(0) 编辑

Lucene in action 笔记 term vector

摘要: Leveraging term vectors所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率. 如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的选项: Field options f... 阅读全文
posted @ 2011-07-04 20:29 fxjwind 阅读(432) 评论(0) 推荐(0) 编辑

Lucene in action 笔记 case study

摘要: 一. Nutch作为用lucene实现的开源search engine怎么使用lucene的了.Nutch用了许多个的lucene indexes放在不同的server上, 因为是面对Web-scale的, document数目在1-10billion量级, 非常的多, 必须用许多机器同时去进行index和search操作. 而且在query的时候需要快速反应, 不能因为某个server crash了而影响正常的query.Nutch的query architecture是相当简单的, 描述如下:1. HTTP server接受到用户request.有个叫Query Handler的servl 阅读全文
posted @ 2011-07-04 20:23 fxjwind 阅读(330) 评论(0) 推荐(0) 编辑