摘要: 原文:http://www.hollischuang.com/archives/489一、基础篇1.1 JVM1.1.1. Java内存模型,Java内存管理,Java堆和栈,垃圾回收http://www.jcp.org/en/jsr/detail?id=133http://ifeve.com/jm... 阅读全文
posted @ 2016-01-07 15:27 骁枫 阅读(339) 评论(0) 推荐(1) 编辑
摘要: 转自:https://github.com/keepsimplefocus/spark-sourcecodes-analysis/blob/master/markdowns/Spark%E8%AF%BB%E5%8F%96%E9%85%8D%E7%BD%AE.mdSpark读取配置我们知道,有一些配置... 阅读全文
posted @ 2016-01-07 09:46 骁枫 阅读(1455) 评论(0) 推荐(0) 编辑
摘要: sqoop import --connect 'jdbc:sqlserver://192.168.xx.xx:1433;username=sa;password=xxxx;database=WindElec' --table sqlTest1 --target-dir '/sqoop/test1' -m 2 阅读全文
posted @ 2015-12-23 22:01 骁枫 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: Spark 调优返回原文英文原文:Tuning SparkBecause of the in-memory nature of most Spark computations, Spark programs can be bottlenecked by any resource in the clu... 阅读全文
posted @ 2015-12-23 15:00 骁枫 阅读(2133) 评论(0) 推荐(0) 编辑
摘要: 今天在写spark任务的时候遇到这么一个错误,我的spark版本是1.5.1.1 Exception in thread "main" com.esotericsoftware.kryo.KryoException: Buffer overflow. Available: 0, required: ... 阅读全文
posted @ 2015-12-14 17:35 骁枫 阅读(7039) 评论(0) 推荐(0) 编辑
摘要: 1、spark sql可以直接加载avro文件,之后再进行一系列的操作,示例: 阅读全文
posted @ 2015-12-03 11:45 骁枫 阅读(1049) 评论(0) 推荐(0) 编辑
摘要: 这是一篇翻译,原文来自:How to load some Avro data into Spark。首先,为什么使用 Avro ?最基本的格式是 CSV ,其廉价并且不需要顶一个一个 schema 和数据关联。随后流行起来的一个通用的格式是 XML,其有一个 schema 和 数据关联,XML 广泛... 阅读全文
posted @ 2015-12-03 11:31 骁枫 阅读(1564) 评论(0) 推荐(0) 编辑
摘要: 1、通过Java往hdfs写avro文件 1 import java.io.File; 2 import java.io.IOException; 3 import java.io.OutputStream; 4 import java.nio.ByteBuffer; 5 6 import org... 阅读全文
posted @ 2015-12-03 11:31 骁枫 阅读(2754) 评论(0) 推荐(0) 编辑
摘要: 原来的代码: JavaRDD javaRdd = rdd.flatMap(new FlatMapFunction() { private static final long serialVersionUID = 10000L; List newList =... 阅读全文
posted @ 2015-12-02 17:53 骁枫 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: 使用 使用使用 使用 HDFS 保存大量小文件的缺点:1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计,每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力。2.如果采用 Hadoop MapReduce ... 阅读全文
posted @ 2015-12-01 17:48 骁枫 阅读(1315) 评论(0) 推荐(0) 编辑