[置顶] Parquet && spark和Hive的问题排查

摘要: Parquet异常问题排查 问题异常如下: 定位异常的代码: 由此可见,随着writer创建的个数越来越多,导致申请的内存的数量超出了系统分配的数量,从而导致 scale 计算得到小于1的情况。而在我们的场景下,是因为采用了自动分区,由于创建分区的数量超出了我们设想的值,因此才触发此bug。为什么要 阅读全文
posted @ 2017-04-17 11:13 luckuan1985 阅读(2493) 评论(0) 推荐(0) 编辑

蒙特卡罗方法求非概率分布的随机数

摘要: 问题 假如有四个选项ABCD,每个选项的概率不一样,比如A-0.01 B-0.45 C-0.35 D 0.19 。 如果要从四个选项中任选一个的话,选出的选项尽可能的符合对应的概率。如选100次,才会选出一个A出来。怎么实现? 算法 请参考 "蒙特卡罗方法" 。 思路 从ABCD中,随机选择一个作为 阅读全文
posted @ 2016-07-26 00:44 luckuan1985 阅读(387) 评论(0) 推荐(0) 编辑

spark作业解析[转载]

摘要: 作者:连城 链接:https://www.zhihu.com/question/23079001/answer/23569986 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 UPDATE 1 简单起见,下述答案仅就无shuffle的单stage Spark作业做 阅读全文
posted @ 2016-06-20 23:33 luckuan1985 阅读(226) 评论(0) 推荐(0) 编辑

spark API 之 combineByKey

摘要: 以下代码是combineByKey的一个例子,把执行过程展示出来。 RDD分区为1 RDD分区为2 阅读全文
posted @ 2016-04-28 12:16 luckuan1985 阅读(180) 评论(0) 推荐(0) 编辑

RDD执行延迟执行原理

摘要: 简化版的RDD执行延迟执行原理 每个RDD在执行过程中,都会生成一个Iterator,涉及到的设计模式装饰模式。 只有当最后一个Iterator执行hasNext和next方法时,才会依次递归执行父RDD生成的Iterator的对应方法,然后在next方法中执行我们程序事先定义好的逻辑方法。比如ma 阅读全文
posted @ 2016-04-28 00:54 luckuan1985 阅读(476) 评论(0) 推荐(0) 编辑

spark应用运行机制解析1

摘要: spark应用运行机制解析1 bin/spark submit #设置SPARK_HOME if [ z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd " "/..; pwd)" fi disable randomized hash for stri 阅读全文
posted @ 2016-04-19 01:19 luckuan1985 阅读(955) 评论(0) 推荐(0) 编辑

spark streaming job生成与运行

摘要: spark streaming job生成 spark Streaming每次提交job的时候,会提交几个呢? DStreamGraph 分别根据每个outputStream生成job,也就是说有多少个outputStream,就会有多少job outputStream如何生成呢 DStream 这 阅读全文
posted @ 2016-04-13 10:54 luckuan1985 阅读(1548) 评论(0) 推荐(0) 编辑

spark的Task的序列化

摘要: Task类型 Spark一共有两种Task,一种是ResultTask,此Task只有job的最后一个stage才会生成,其他stage生成的Task是ShuffleTask。 Task生成 Task序列化 序列化代码 / Serialize a task and the current app d 阅读全文
posted @ 2016-04-13 01:33 luckuan1985 阅读(1423) 评论(0) 推荐(0) 编辑

spark将计算结果写入到hdfs的两种方法

摘要: spark将计算结果写入到hdfs的两种方法第一种方法: 这种方法有这么几个问题 1、生成的lzo文件不会创建index文件,需要手动进行创建。 2、每个文件的名称不能自定义。 第二种方法是直接调用LzopOutputstream的接口和hdfs的api,直接操作hdfs文件。可以规避以上几个问题。 阅读全文
posted @ 2016-03-08 02:00 luckuan1985 阅读(24757) 评论(0) 推荐(0) 编辑

spark的runJob函数2

摘要: 上一篇我们讲到了spark的runJob方法提交job运行,runJob在提交时,需要RDD和一个函数,那么运行机制是什么呢?函数如何运行的呢?首先job被提交后,需要切分stage,然后每个stage会划分成一组task提交executor运行。如何切分stage和task,需要另写一篇来解读。那 阅读全文
posted @ 2016-03-08 01:38 luckuan1985 阅读(1043) 评论(0) 推荐(0) 编辑