随笔档案「2018年6月」 - sky_sql

MapReduce Design Patterns(chapter 3 (part 1))(五)

摘要：Chapter 3. Filtering Patterns 本章的模式有一个共同点：不会改变原来的记录。这种模式是找到一个数据的子集，或者更小，例如取前十条,或者很大，例如结果去重。这种过滤器模式跟前面章节的不同是，从更小的粒度认识数据，例如特殊用户生成的记录，或文本中用得最多的前10个动词。简单的阅读全文

posted @ 2018-06-19 15:27 sky_sql 阅读(367) 评论(0) 推荐(0)

MapReduce Design Patterns(chapter 2 (part 3))(四)

摘要：Inverted Index Summarizations Pattern Description 反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的term跟标识符之间映射的一般情况。 Intent 根据数据集生成索引，用于快速搜索或数据的富集能力。 Motivati 阅读全文

posted @ 2018-06-19 15:20 sky_sql 阅读(175) 评论(0) 推荐(0)

MapReduce Design Patterns(chapter 2 (part 2))(三)

摘要：Median and standard deviation 中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的，它们不是那么容易的能从combiner中获益。中值是将数据集一分为两等份的数值类型，一份比中值大，一部分比中值小。这需要数据集按顺序完成清洗。数据必须是排序的，但存在一定障碍，阅读全文

posted @ 2018-06-19 15:00 sky_sql 阅读(168) 评论(0) 推荐(0)

MapReduce Design Patterns(chapter 2(part 1))(二)

摘要：随着每天都有更多的数据加载进系统，数据量变得很庞大。这一章专注于对你的数据顶层的，概括性意见的设计模式，从而使你能扩展思路，但可能对局部数据是不适用的。概括性的分析都是关于对相似数据的分组和执行统计运算，创建索引，或仅仅为了计数。通过分组数据集计算聚合排序是一种快速获取结果的好方法。例如,你可能想阅读全文

posted @ 2018-06-19 14:54 sky_sql 阅读(179) 评论(0) 推荐(0)

MapReduce Design Patterns(chapter 1)(一)

摘要：Chapter 1.Design Patterns and MapReduce MapReduce 是一种运行于成百上千台机器上的处理数据的框架，目前被google，Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大，但它没有提供一个处理所谓“big data”的通用，普遍的情形，所以它能阅读全文

posted @ 2018-06-19 14:17 sky_sql 阅读(340) 评论(0) 推荐(0)

06 2018 档案

公告