摘要:
一、数据倾斜产生的原因 spark job中绝大多数task执行得非常快,但个别task执行缓慢。或者原本线上运行的job是正常,但在某天由于特殊原因报出OOM的异常,观察发现是因为代码本身造成的。 一般来说,发生数据倾斜是在程序进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上 阅读全文
摘要:
todo 阅读全文
摘要:
一、Timeline Hudi 的核心是维护不同时间对表执行的所有操作的事件表,这有助于提供表的即时视图,同时还有效地支持按到达顺序进行数据检索。 Hudi 包含以下组件∶ 1)Instant action∶在表上的操作类型 2)Instant time∶ 操作开始的一个时间戳,该时间戳会按照开始时 阅读全文
摘要:
一、将Hudi数据同步到Hive 1)需要将编译好的hudi-hadoop-mr-bundle-0.10.0.jar,放到对应的环境中,../CDH/jars 和 ../CDH/lib/hive/lib下面,具体步骤可以参考Flink1.3.1+Hudi0.10初探 cd /app/hudi-0.1 阅读全文
摘要:
一、hudi编译 1)下载0.10版本的hudi,因为cdh6..2自带spark是2.4.0版本的,需要改下代码,注释掉整个if内容,否则会报错 2)将编译完成的hudi-spark-bundle_2.11-0.10.0.jar放到spark home的jars下 # 编译mvn clean pa 阅读全文
摘要:
正常的SPARK SQL执行会先经过SQL Parser解析SQL,然后经过Catalyst优化器处理,最后到spark执行,其中包括以下几个重要的部分: SQL Parse:sql解析器将sql解析为抽象语法树,即Unresolved Logical Plan Analysis:利用Catalog 阅读全文
摘要:
1)sc.textFile读取小文件时,调用的时hadoopFile,使用的是textInputFormat,除了使用sc.wholeTextFiles还可以自定义CombineFileInputFormat // sc.textFile调用的是 sc.hadoopFile,但是InputForma 阅读全文
摘要:
一、全量表:df表,有无变化都要上报,只有一个分区或者没有分区,每次往全量表里面写数据都会覆盖之前的数据,不能记录数据的历史变化,只能截止到当前最新、全量的数据 二、增量表:每天新增的数据和改变的数据都会存储在当日的分区中;增量表记录每次增加的量,只报变化量,无变化的不用报;增量表设计过程,假设以1 阅读全文
摘要:
自定义Listener来实现对spark任务的运行状态的监控: package org.shydow.example import org.apache.spark.internal.Logging import org.apache.spark.scheduler.{JobResult, Spar 阅读全文
摘要:
一、Streamx的编译和安装 1)编译 阅读全文