2017 年 5月 12 日随笔档案 - 橘子不是唯一的水果

摘要： Introduction 介绍两种共享变量的方式： accumulators：聚集信息 broadcast variables：高效地分布large values 介绍对高setup costs任务的批操作，比如查询数据库时连接数据的消耗。 > working on a per-partiton b 阅读全文

posted @ 2017-05-12 12:04 橘子不是唯一的水果阅读(158) 评论(0) 推荐(0) 编辑

摘要： Motivation Spark是基于Hadoop可用的生态系统构建的，因此Spark可以通过Hadoop MapReduce的InputFormat和OutputFormat接口存取数据。 Spark所提供的上层接口有这几类： File formats and filesystems: 对于存储在阅读全文

posted @ 2017-05-12 09:46 橘子不是唯一的水果阅读(194) 评论(0) 推荐(0) 编辑

摘要： Origin 我们首先理解一下SequenceFile试图解决什么问题，然后看SeqFile怎么解决这些问题。 In HDFS 序列文件是解决Hadoop小文件问题的一个方法；小文件是显著小于HDFS块(128M)的文件；在HDFS中，每个文件、目录、块都被表示成一个对象，占用150bytes；阅读全文

posted @ 2017-05-12 09:38 橘子不是唯一的水果阅读(612) 评论(0) 推荐(0) 编辑

2017年5月12日

公告

导航