摘要: kafka之所以那么快,其中一个很大的原因就是零拷贝(Zero-copy)技术,零拷贝不会kafka的专利,而是操作系统的升级,又比如Netty,也用到了零拷贝。 传统IO kafka的数据是要落入磁盘的,那么必然牵扯到磁盘的IO,传统磁盘IO又叫做缓存IO,效率是很低的,那么为什么效率低下呢?我们 阅读全文
posted @ 2021-01-30 19:17 风清_云淡 阅读(849) 评论(0) 推荐(0) 编辑
摘要: 最近在研究kafka的源码,发现有些小伙伴的源码写的很不错,就想转载一下,让更多的人知道和学习一下。 https://blog.csdn.net/weixin_43167418/article/details/104218328 阅读全文
posted @ 2020-12-26 21:44 风清_云淡 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 1、spark sql 计算时,一定要注意精度的问题,一般像金额之类的值,要先转换为double或者 decimal来进行计算了。 一、sql的方式:select shop_id,order_id,sum(cast(deal_price as decimal(15,2))) deal_price,s 阅读全文
posted @ 2020-12-17 15:29 风清_云淡 阅读(7690) 评论(0) 推荐(0) 编辑
摘要: 1、概念 Task(任务):Task是一个阶段多个功能相同的subTask 的集合,类似于Spark中的TaskSet。 subTask(子任务):subTask是Flink中任务最小执行单元,是一个Java类的实例,这个Java类中有属性和方法,完成具体的计算逻辑。 Operator Chains 阅读全文
posted @ 2020-12-16 13:34 风清_云淡 阅读(3040) 评论(0) 推荐(0) 编辑
摘要: 梳理spark rpc相关的东西,记录一下 1、如果把分布式系统(HBASE,HDFS,SPAKR)比作一个人,那么RPC可以认为是人体的血液循环系统。它将系统中各个不同的组件(如Hbase中的 master,RegionServer,client)联系了起来。同样,在spark中,不同组件像dri 阅读全文
posted @ 2020-10-18 21:03 风清_云淡 阅读(502) 评论(0) 推荐(0) 编辑
摘要: pivot函数:行装列函数:语法:pivot(任一聚合函数 for 需要转列的值所在列名 in (需转为列名的值)) unpivot函数:列转行函数: 语法:unpivot(新增值所在列的列名 for 新增列转为行后所在列的列名 in (需转为行的列名)) 执行原理:将 pivot函数或unpivo 阅读全文
posted @ 2020-10-15 14:16 风清_云淡 阅读(373) 评论(0) 推荐(0) 编辑
摘要: set hive.execution.engine=spark;set hive.exec.parallel=true;set hive.exec.parallel.thread.number=8;set hive.exec.compress.intermediate=true;set hive.i 阅读全文
posted @ 2020-09-21 10:39 风清_云淡 阅读(2225) 评论(0) 推荐(0) 编辑
摘要: 1.定义 精确一次消费(Exactly-once) 是指消息一定会被处理且只会被处理一次。不多不少就一次处理。 如果达不到精确一次消费,可能会达到另外两种情况: 至少一次消费(at least once),主要是保证数据不会丢失,但有可能存在数据重复问题。 最多一次消费 (at most once) 阅读全文
posted @ 2020-09-19 22:37 风清_云淡 阅读(1970) 评论(0) 推荐(0) 编辑
摘要: Flink 保证 ExactlyOnce 1、使用执行ExactlyOnce 的数据源,比如 kafka 2、使用FlinkConsumer,开启CheckPointing,偏移量会保存通过CheckPointing 保存到StateBackend中,并且默认会将偏移量写入kafka的特殊 topi 阅读全文
posted @ 2020-08-16 17:55 风清_云淡 阅读(784) 评论(0) 推荐(0) 编辑
摘要: 一、State 状态 (状态数据) Flink 实时计算程序为了保证计算过程中,出现异常可以容错,就要将中间的计算结果数据存储起来,这些中间结果数据就叫做 State。 State 可以是多种类型的,默认是保存到 JobManager 的内存中,也可以保存到TaskManager 本地文件系统或HD 阅读全文
posted @ 2020-08-09 11:18 风清_云淡 阅读(238) 评论(0) 推荐(0) 编辑