2017年5月12日

摘要: Introduction 介绍两种共享变量的方式: accumulators:聚集信息 broadcast variables:高效地分布large values 介绍对高setup costs任务的批操作,比如查询数据库时连接数据的消耗。 > working on a per-partiton b 阅读全文
posted @ 2017-05-12 12:04 橘子不是唯一的水果 阅读(158) 评论(0) 推荐(0) 编辑
 
摘要: Motivation Spark是基于Hadoop可用的生态系统构建的,因此Spark可以通过Hadoop MapReduce的InputFormat和OutputFormat接口存取数据。 Spark所提供的上层接口有这几类: File formats and filesystems: 对于存储在 阅读全文
posted @ 2017-05-12 09:46 橘子不是唯一的水果 阅读(194) 评论(0) 推荐(0) 编辑
 
摘要: Origin 我们首先理解一下SequenceFile试图解决什么问题,然后看SeqFile怎么解决这些问题。 In HDFS 序列文件是解决Hadoop小文件问题的一个方法; 小文件是显著小于HDFS块(128M)的文件; 在HDFS中,每个文件、目录、块都被表示成一个对象,占用150bytes; 阅读全文
posted @ 2017-05-12 09:38 橘子不是唯一的水果 阅读(612) 评论(0) 推荐(0) 编辑