12 2019 档案

摘要:fastutil githup 链接 pom.xml文件引入依赖 <dependency> <groupId>fastutil</groupId> <artifactId>fastutil</artifactId> <version>5.0.9</version> </dependency> jav 阅读全文
posted @ 2019-12-26 14:27 sw_kong 阅读(1259) 评论(0) 推荐(0) 编辑
摘要:查看的源码为spark2.3 调用ShuffleMapTask的runTask方法 org.apache.spark.scheduler.ShuffleMapTask#runTask ShuffleMapTask继承了org.apache.spark.scheduler.Task,重写了Task的r 阅读全文
posted @ 2019-12-20 13:58 sw_kong 阅读(429) 评论(0) 推荐(0) 编辑
摘要:spark2.3 shuffle manager,默认sortShuffleManager // Let the user specify short names for shuffle managers val shortShuffleMgrNames = Map( "sort" -> class 阅读全文
posted @ 2019-12-19 09:13 sw_kong 阅读(325) 评论(0) 推荐(0) 编辑
摘要:数据库版本:version 10 以非继承的形式创建分区表,一级分区是城市,二级分区是天;指定分区有两种形式,RANGE和LIST,如果使用RANGE在创建分区语句中是通过FOR VALUES FROM...TO...;如果使用的是LIST,使用的是FOR VALUES IN (value值),多个 阅读全文
posted @ 2019-12-19 09:11 sw_kong 阅读(1360) 评论(0) 推荐(0) 编辑
摘要:Data Serialization 对spark程序来说,可能会产生的瓶颈包括:cpu,网络带宽,内存 在任何分布式应用中数据序列化都非常重要,数据序列化带来的作用是什么?第一减少内存占用,第二减小网络传输带宽消耗。spark提供了两种序列化方式: 1.Java serialization 默认情 阅读全文
posted @ 2019-12-17 14:10 sw_kong 阅读(301) 评论(0) 推荐(0) 编辑
摘要:on yarn:https://ci.apache.org/projects/flink/flink-docs-release-1.8/ops/deployment/yarn_setup.html flink on yarn两种方式 第一种方式:yarn session 模式,在yarn上启动一个长 阅读全文
posted @ 2019-12-10 17:53 sw_kong 阅读(5190) 评论(0) 推荐(0) 编辑
摘要:flink architecture 1.flink可以运行在本地,也可以类似spark一样on yarn或者standalone模式(与spark standalone也很相似) 2.Runtime部分是flink的核心数据处理引擎,他将我们通过api编程的程序生成任务图(JobGraph),任务 阅读全文
posted @ 2019-12-05 15:10 sw_kong 阅读(1995) 评论(0) 推荐(0) 编辑
摘要:官网参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/#api-references 导入maven依赖 需要注意的是,如果使用scala写程序,导入的依赖跟java是不一样的 Maven Dependencies You 阅读全文
posted @ 2019-12-04 17:36 sw_kong 阅读(1339) 评论(2) 推荐(0) 编辑