04 2016 档案

摘要:1 Storm 分布式计算结构称为 Topology (拓扑) Topology 由 stream(数据流)。spout(数据流的生成者)。bolt(运算)组成。 1.1 stream Strom 核心数据结构是 tuple。 tuple/英译 元组,重数/ 1.2 spout ... 阅读全文
posted @ 2016-04-27 17:05 rocky_24 阅读(240) 评论(0) 推荐(0)
摘要:可以借用 SQL 的连接来解释假设 表A、表B内连接: A.name = B.name 保存共有的相同值属性外连接: 左外连接: 以 外键表A(左)属性为基准。 包含A 属性整列。B属性符合A属性值的存入,其余B属性被置为 null。 右外连接: 以 外键表B(右)属性为基准。 包含B 属性整列。B属性符合A属性值的存入,... 阅读全文
posted @ 2016-04-25 09:29 rocky_24 阅读(231) 评论(0) 推荐(0)
摘要:前面讲的 分区、分箱模式 都是不关心数据的顺序。 接下来 全排序、混排序模式 关心的是数据按照指定键进行并行排序。全排序解释; 排序在顺序结构程序中容易实现, 但是在MapReduce 中,或者说在并行编程中不易实现。这是典型的 “分治法”。 每个 reduce 将按照键对他的数据排序,但这种排序并不是全局意义上的排序。 这里想做的是全排序,记录是整个数据集按照顺序排列好的。作用: ... 阅读全文
posted @ 2016-04-19 18:34 rocky_24 阅读(657) 评论(0) 推荐(0)
摘要:分箱目的: 将数据集中的每条记录都归档到一个 或 多个文件中。分箱与分区: 分享模式与分区模式很类似。 主要区别在于 分箱使用 Map 构建 而 分区需要用到 MapReduce 进行分区。 分箱好处是减少 reduce 阶段的工作量结构: Map阶段重写 setup方法。使用了 MultipleOutput 类, 通过该类将作业输出到多个不... 阅读全文
posted @ 2016-04-19 13:57 rocky_24 阅读(332) 评论(0) 推荐(0)
摘要:分区模式是将记录进行分类(即分片、分区或分箱),他不关心记录的顺序 目的: 将数据集中相似的数据记录成不同的、更小的数据。 适用范围: 必须提前知道有多少个分区。 比如按天、按月、年等等。 结构: 数据是通过分区器进行分区的。 所以需要自定义分区器(partitioner)函数来确定每条记录应该被分在那... 阅读全文
posted @ 2016-04-11 10:09 rocky_24 阅读(267) 评论(0) 推荐(0)
摘要:数据组织模式 是通过分区、分片、排序等方式将个别记录的价值突显出来。 分布式系统是可以通过分、分片及排序方式优化性能。 分层结构模式 分层结构模式是从数据中创造出不同与原有结构的新记录。 当从 RDBMS 中将数据迁移至 hadoop 系统时,首先考虑将数据重新格式化成对计算更为有利的结构。 案例: 一个网站上的帖吧结构。 从R... 阅读全文
posted @ 2016-04-08 15:34 rocky_24 阅读(632) 评论(0) 推荐(0)
摘要:第四部分所有的模式涉及一个共同点: 不会改变原有的记录。 这些模式都是寻找数据子集的,不管结果集的规模是小(top10)还是大(像去重结果)。 与第三部分差异是,他们通过对数据的相思子端坐概要与分组来得到数据的高层次视图的。 而过滤更关注理解较小的数据。 简单随机抽样 :是过滤的一个常见应用,比如提取某字段最高记录,或者随机抽取几条。 抽样可以用来得到 更小的,更具有代表性的数据子... 阅读全文
posted @ 2016-04-07 16:46 rocky_24 阅读(846) 评论(0) 推荐(0)
摘要:二 倒排索引 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式:一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中... 阅读全文
posted @ 2016-04-05 17:44 rocky_24 阅读(340) 评论(0) 推荐(0)
摘要:一 数值概要 模式描述: 数值概要模式是计算机数据聚合统计值的一般性模式。 对于合理使用 combiner 以及理解正在做的计算来讲,数值概要模式是极为重要的。 目的 基于某个键将记录分组,并对每个分组计算一系列的聚合值,从而得到较大数据集的高层次视图。 适用场景 要处理的数据是数值数据或者计数 数据可以按照特定的字段... 阅读全文
posted @ 2016-04-05 09:21 rocky_24 阅读(726) 评论(0) 推荐(0)

希望祖国繁荣,富强! God has given me a gift. Only one. I am the most complete fighter in the world. My whole life, I have trained. I must prove I am worthy of someting. rocky_24