06 2018 档案

摘要:Chapter 3. Filtering Patterns 本章的模式有一个共同点:不会改变原来的记录。这种模式是找到一个数据的子集,或者更小,例如取前十条,或者很大,例如结果去重。这种过滤器模式跟前面章节的不同是,从更小的粒度认识数据,例如特殊用户生成的记录,或文本中用得最多的前10个动词。简单的 阅读全文
posted @ 2018-06-19 15:27 sky_sql 阅读(352) 评论(0) 推荐(0) 编辑
摘要:Inverted Index Summarizations Pattern Description 反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的term跟标识符之间映射的一般情况。 Intent 根据数据集生成索引,用于快速搜索或数据的富集能力。 Motivati 阅读全文
posted @ 2018-06-19 15:20 sky_sql 阅读(163) 评论(0) 推荐(0) 编辑
摘要:Median and standard deviation 中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的,它们不是那么容易的能从combiner中获益。中值是将数据集一分为两等份的数值类型,一份比中值大,一部分比中值小。这需要数据集按顺序完成清洗。数据必须是排序的,但存在一定障碍, 阅读全文
posted @ 2018-06-19 15:00 sky_sql 阅读(154) 评论(0) 推荐(0) 编辑
摘要:随着每天都有更多的数据加载进系统,数据量变得很庞大。这一章专注于对你的数据顶层的,概括性意见的设计模式,从而使你能扩展思路,但可能对局部数据是不适用的。概括性的分析都是关于对相似数据的分组和执行统计运算,创建索引,或仅仅为了计数。 通过分组数据集计算聚合排序是一种快速获取结果的好方法。例如,你可能想 阅读全文
posted @ 2018-06-19 14:54 sky_sql 阅读(164) 评论(0) 推荐(0) 编辑
摘要:Chapter 1.Design Patterns and MapReduce MapReduce 是一种运行于成百上千台机器上的处理数据的框架,目前被google,Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大,但它没有提供一个处理所谓“big data”的通用,普遍的情形,所以它能 阅读全文
posted @ 2018-06-19 14:17 sky_sql 阅读(312) 评论(0) 推荐(0) 编辑