12 2019 档案
摘要:fastutil githup 链接 pom.xml文件引入依赖 <dependency> <groupId>fastutil</groupId> <artifactId>fastutil</artifactId> <version>5.0.9</version> </dependency> jav
阅读全文
摘要:查看的源码为spark2.3 调用ShuffleMapTask的runTask方法 org.apache.spark.scheduler.ShuffleMapTask#runTask ShuffleMapTask继承了org.apache.spark.scheduler.Task,重写了Task的r
阅读全文
摘要:spark2.3 shuffle manager,默认sortShuffleManager // Let the user specify short names for shuffle managers val shortShuffleMgrNames = Map( "sort" -> class
阅读全文
摘要:数据库版本:version 10 以非继承的形式创建分区表,一级分区是城市,二级分区是天;指定分区有两种形式,RANGE和LIST,如果使用RANGE在创建分区语句中是通过FOR VALUES FROM...TO...;如果使用的是LIST,使用的是FOR VALUES IN (value值),多个
阅读全文
摘要:Data Serialization 对spark程序来说,可能会产生的瓶颈包括:cpu,网络带宽,内存 在任何分布式应用中数据序列化都非常重要,数据序列化带来的作用是什么?第一减少内存占用,第二减小网络传输带宽消耗。spark提供了两种序列化方式: 1.Java serialization 默认情
阅读全文
摘要:on yarn:https://ci.apache.org/projects/flink/flink-docs-release-1.8/ops/deployment/yarn_setup.html flink on yarn两种方式 第一种方式:yarn session 模式,在yarn上启动一个长
阅读全文
摘要:flink architecture 1.flink可以运行在本地,也可以类似spark一样on yarn或者standalone模式(与spark standalone也很相似) 2.Runtime部分是flink的核心数据处理引擎,他将我们通过api编程的程序生成任务图(JobGraph),任务
阅读全文
摘要:官网参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/#api-references 导入maven依赖 需要注意的是,如果使用scala写程序,导入的依赖跟java是不一样的 Maven Dependencies You
阅读全文