摘要:
fastutil githup 链接 pom.xml文件引入依赖 <dependency> <groupId>fastutil</groupId> <artifactId>fastutil</artifactId> <version>5.0.9</version> </dependency> jav 阅读全文
摘要:
查看的源码为spark2.3 调用ShuffleMapTask的runTask方法 org.apache.spark.scheduler.ShuffleMapTask#runTask ShuffleMapTask继承了org.apache.spark.scheduler.Task,重写了Task的r 阅读全文
摘要:
spark2.3 shuffle manager,默认sortShuffleManager // Let the user specify short names for shuffle managers val shortShuffleMgrNames = Map( "sort" -> class 阅读全文
摘要:
数据库版本:version 10 以非继承的形式创建分区表,一级分区是城市,二级分区是天;指定分区有两种形式,RANGE和LIST,如果使用RANGE在创建分区语句中是通过FOR VALUES FROM...TO...;如果使用的是LIST,使用的是FOR VALUES IN (value值),多个 阅读全文
摘要:
Data Serialization 对spark程序来说,可能会产生的瓶颈包括:cpu,网络带宽,内存 在任何分布式应用中数据序列化都非常重要,数据序列化带来的作用是什么?第一减少内存占用,第二减小网络传输带宽消耗。spark提供了两种序列化方式: 1.Java serialization 默认情 阅读全文
摘要:
on yarn:https://ci.apache.org/projects/flink/flink-docs-release-1.8/ops/deployment/yarn_setup.html flink on yarn两种方式 第一种方式:yarn session 模式,在yarn上启动一个长 阅读全文
摘要:
flink architecture 1.flink可以运行在本地,也可以类似spark一样on yarn或者standalone模式(与spark standalone也很相似) 2.Runtime部分是flink的核心数据处理引擎,他将我们通过api编程的程序生成任务图(JobGraph),任务 阅读全文
摘要:
官网参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/#api-references 导入maven依赖 需要注意的是,如果使用scala写程序,导入的依赖跟java是不一样的 Maven Dependencies You 阅读全文
摘要:
$0 当前脚本的文件名$n 传递给脚本或函数的参数。n 是一个数字,表示第几个参数。例如,第一个参数是$1,第二个参数是$2$# 传递给脚本或函数的参数个数$* 传递给脚本或函数的所有参数$@ 传递给脚本或函数的所有参数。被双引号(" ")包含时,与 $* 稍有不同$? 上个命令的退出状态,或函数的 阅读全文
摘要:
执行任务 ./spark-submit \ --class cn.com.dtmobile.spark.DebugTest \ --master yarn \ --deploy-mode client \ --num-executors 3 \ --executor-cores 2 \ --exec 阅读全文