会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
ArancioneRagazza
2017年5月12日
<Spark><Advanced Programming>
摘要: Introduction 介绍两种共享变量的方式: accumulators:聚集信息 broadcast variables:高效地分布large values 介绍对高setup costs任务的批操作,比如查询数据库时连接数据的消耗。 > working on a per-partiton b
阅读全文
posted @ 2017-05-12 12:04 橘子不是唯一的水果
阅读(158)
评论(0)
推荐(0)
编辑
<Spark><Programming><Loading and Saving Your Data>
摘要: Motivation Spark是基于Hadoop可用的生态系统构建的,因此Spark可以通过Hadoop MapReduce的InputFormat和OutputFormat接口存取数据。 Spark所提供的上层接口有这几类: File formats and filesystems: 对于存储在
阅读全文
posted @ 2017-05-12 09:46 橘子不是唯一的水果
阅读(194)
评论(0)
推荐(0)
编辑
<Hadoop><SequenceFile><Hadoop小文件>
摘要: Origin 我们首先理解一下SequenceFile试图解决什么问题,然后看SeqFile怎么解决这些问题。 In HDFS 序列文件是解决Hadoop小文件问题的一个方法; 小文件是显著小于HDFS块(128M)的文件; 在HDFS中,每个文件、目录、块都被表示成一个对象,占用150bytes;
阅读全文
posted @ 2017-05-12 09:38 橘子不是唯一的水果
阅读(612)
评论(0)
推荐(0)
编辑
公告
导航
博客园
首页
新随笔
新文章
联系
订阅
管理