摘要: 1.慎用API 大数据场景下不害怕数据量大,害怕的是数据倾斜,怎么样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键.数据量较大的情况下,慎用count(distinct),count(distinct)容易产生数据倾斜哎. 2.自定义UDAD函数优化 sum,count,max,mix等UDAF函 阅读全文
posted @ 2021-08-25 19:55 明明就- 阅读(41) 评论(0) 推荐(0) 编辑
摘要: Kafka Streams 1.Apache Kafka开源项目的一个组成部分,是一个功能强大,易于使用的库.用于在Kafka上构建高可分布,可拓展,高容错的应用程序. 2.Kafka Streams特点 1)功能强大:高扩展性,弹性,容错 2)轻量级:无需专门的集群,一个库,而不是框架. 3)完全 阅读全文
posted @ 2021-08-25 11:44 明明就- 阅读(587) 评论(0) 推荐(2) 编辑
摘要: Kafka producer拦截器--Interceptor 拦截器原理: producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化逻辑.对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑 阅读全文
posted @ 2021-08-25 11:12 明明就- 阅读(428) 评论(0) 推荐(0) 编辑