2019 年 12月随笔档案 - sw_kong

fastutil优化数据结构使用示例

摘要：fastutil githup 链接 pom.xml文件引入依赖 <dependency> <groupId>fastutil</groupId> <artifactId>fastutil</artifactId> <version>5.0.9</version> </dependency> jav 阅读全文

posted @ 2019-12-26 14:27 sw_kong 阅读(1259) 评论(0) 推荐(0) 编辑

spark sortShuffleWriter源码学习

摘要：查看的源码为spark2.3 调用ShuffleMapTask的runTask方法 org.apache.spark.scheduler.ShuffleMapTask#runTask ShuffleMapTask继承了org.apache.spark.scheduler.Task，重写了Task的r 阅读全文

posted @ 2019-12-20 13:58 sw_kong 阅读(429) 评论(0) 推荐(0) 编辑

spark shuffle发展历程

摘要：spark2.3 shuffle manager，默认sortShuffleManager // Let the user specify short names for shuffle managers val shortShuffleMgrNames = Map( "sort" -> class 阅读全文

posted @ 2019-12-19 09:13 sw_kong 阅读(325) 评论(0) 推荐(0) 编辑

postgrepSQL数据库创建二级分区表

摘要：数据库版本：version 10 以非继承的形式创建分区表，一级分区是城市，二级分区是天；指定分区有两种形式，RANGE和LIST，如果使用RANGE在创建分区语句中是通过FOR VALUES FROM...TO...；如果使用的是LIST，使用的是FOR VALUES IN (value值)，多个阅读全文

posted @ 2019-12-19 09:11 sw_kong 阅读(1360) 评论(0) 推荐(0) 编辑

Tunning spark

摘要：Data Serialization 对spark程序来说，可能会产生的瓶颈包括：cpu，网络带宽，内存在任何分布式应用中数据序列化都非常重要，数据序列化带来的作用是什么？第一减少内存占用，第二减小网络传输带宽消耗。spark提供了两种序列化方式： 1.Java serialization 默认情阅读全文

posted @ 2019-12-17 14:10 sw_kong 阅读(301) 评论(0) 推荐(0) 编辑

Flink on yarn以及实现jobManager 高可用(HA)

摘要：on yarn：https://ci.apache.org/projects/flink/flink-docs-release-1.8/ops/deployment/yarn_setup.html flink on yarn两种方式第一种方式：yarn session 模式，在yarn上启动一个长阅读全文

posted @ 2019-12-10 17:53 sw_kong 阅读(5190) 评论(0) 推荐(0) 编辑

flink初识、优势对比、安装flink standalone集群

摘要：flink architecture 1.flink可以运行在本地，也可以类似spark一样on yarn或者standalone模式（与spark standalone也很相似） 2.Runtime部分是flink的核心数据处理引擎，他将我们通过api编程的程序生成任务图（JobGraph），任务阅读全文

posted @ 2019-12-05 15:10 sw_kong 阅读(1995) 评论(0) 推荐(0) 编辑

Flink三种API的wordcount

摘要：官网参考：https://ci.apache.org/projects/flink/flink-docs-release-1.10/#api-references 导入maven依赖需要注意的是，如果使用scala写程序，导入的依赖跟java是不一样的 Maven Dependencies You 阅读全文

posted @ 2019-12-04 17:36 sw_kong 阅读(1339) 评论(2) 推荐(0) 编辑

sw_kong

12 2019 档案

公告