fxjwind

Hadoop TDG 2 -- introduction

摘要：首先我们为什么需要Hadoop？ The good news is that Big Data is here. The bad news is that we are struggling to store and analyze it. 面对海量的数据，我们需要高效的分析和存储他们，而Hadoop可以做到这点， This, in a nutshell, is what Hadoop p... 阅读全文

posted @ 2011-07-04 20:57 fxjwind 阅读(731) 评论(0) 推荐(0) 编辑

Extracting Information from Text With NLTK

摘要：因为现实中的数据多为‘非结构化数据’，比如一般的txt文档，或是‘半结构化数据’，比如html，对于这样的数据需要采用一些技术才能从中提取出有用的信息。如果所有数据都是‘结构化数据’，比如Xml或关系数据库，那么就不需要特别去提取了，可以根据元数据去任意取到你想要的信息。那么就来讨论一下用NLTK来实现文本信息提取的方法，first, the raw text of the document is split into sentences using a sentence segmenter, and each sentence is further subdivided into word 阅读全文

posted @ 2011-07-04 20:52 fxjwind 阅读(449) 评论(0) 推荐(0) 编辑

Classify Text With NLTK

摘要： Classification is the task of choosing the correct class label for a given input.A classifier is called supervised if it is built based on training corpora containing the correct label for each input.这里就以一个例子来说明怎样用nltk来实现分类器训练和分类一个简单的分类任务，给定一个名字，判断其性别，就是在male，female两类进行分类好，先来训练，训练就要有corpus，就是分好类的名字的阅读全文

posted @ 2011-07-04 20:48 fxjwind 阅读(697) 评论(0) 推荐(0) 编辑

POS Tagging with NLTK

摘要： POS tagging :part-of-speech tagging , or word classes or lexical categories . 说法很多其实就是词性标注。那么用nltk的工具集的off-the-shelf工具可以简单的对文本进行POS tagging>>> text = nltk.word_tokenize("And now for something completely different")>>> nltk.pos_tag(text)[(''And'', '' 阅读全文

posted @ 2011-07-04 20:46 fxjwind 阅读(1298) 评论(0) 推荐(0) 编辑

MG--索引构造

摘要：顾名思义这章就是要谈怎样构造索引的问题，或者说在有限内存和有限时间内，怎么样高效的对大数据集构造索引文件。一旦有了这个索引文件，那么索引的压缩，基于索引的排序，前面的章节都已经讲过。链接列表先来看看最一般的方法，在内存中构建这样的数据结构，包含一个term字典，这个字典本身可以用数组，hash表，二分查找树来实现，字典中的每项，都包含一个指向term的倒排列表的指针，那么对于一个term的倒... 阅读全文

posted @ 2011-07-04 20:40 fxjwind 阅读(340) 评论(0) 推荐(0) 编辑

MG--查询

摘要：查询就是如何利用建好的索引来找到想要的文本，那么会介绍两种查询，一种是布尔查询(Boolean Query)，另一种是排名查询(Ranked Query).布尔查询包含了一个术语列表，这些术语通过布尔操作符相连(and,or,not)，查询的答案是满足规定条件的文档。布尔查询的缺点是会不可避免的返回很多无关的答案，而且查询一些小的变动会导致结果完全不同。因为布尔查询是机械的，必须精确匹配布尔... 阅读全文

posted @ 2011-07-04 20:39 fxjwind 阅读(692) 评论(2) 推荐(0) 编辑

MG--索引

摘要：在这个信息爆炸的年代，信息索引的重要性不言而喻。现在主要的索引结构就是倒排索引，又称为记录文件（posting file），词汇索引（concordance）。其他的还有签名文件（signature file），和位图（bitmap）。倒排索引倒排索引在结构上分为，倒排列表（inverted list）和字典，倒排列表就是记录一列指针，每个指针表示了术语所在的文档的编号，甚至是在文档中的位置。而字典就是记录了术语和倒排列表的对应关系。举个例子，cold (2;1,4)表示cold这个词出现了2次，分别在第1和第4号文档里面。那么索引有个粒度的问题，上面的例子的索引的粒度是文档级的，阅读全文

posted @ 2011-07-04 20:34 fxjwind 阅读(397) 评论(0) 推荐(0) 编辑

Managing Gigabytes--文本压缩

摘要：开门见山，文本压缩可以归纳为两大类, 符号方法和字典方法，下面分别介绍下： 1）符号方法，symbolwise method普通编码方式是每个字符都采用相同位数编码，比如asc码，每个字符都是8位编码。那么现在要压缩，就是要用更少的位数来表示字符。显而易见，我们只须用较小的位数来表示高概率字符，用较长的位数来表示低概率字符，这样平均下来就可以实现压缩。那么这里面就有两个点：a）怎么来确... 阅读全文

posted @ 2011-07-04 20:32 fxjwind 阅读(472) 评论(0) 推荐(0) 编辑

Lucene in action 笔记 term vector

摘要： Leveraging term vectors所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率. 如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的选项: Field options f... 阅读全文

posted @ 2011-07-04 20:29 fxjwind 阅读(432) 评论(0) 推荐(0) 编辑

Lucene in action 笔记 case study

摘要：一. Nutch作为用lucene实现的开源search engine怎么使用lucene的了.Nutch用了许多个的lucene indexes放在不同的server上, 因为是面对Web-scale的, document数目在1-10billion量级, 非常的多, 必须用许多机器同时去进行index和search操作. 而且在query的时候需要快速反应, 不能因为某个server crash了而影响正常的query.Nutch的query architecture是相当简单的, 描述如下:1. HTTP server接受到用户request.有个叫Query Handler的servl 阅读全文

posted @ 2011-07-04 20:23 fxjwind 阅读(330) 评论(0) 推荐(0) 编辑