随笔档案「2021年8月25日」：Hive优化 ... - 明明就-

2021年8月25日

摘要： 1.慎用API 大数据场景下不害怕数据量大,害怕的是数据倾斜,怎么样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键.数据量较大的情况下,慎用count(distinct),count(distinct)容易产生数据倾斜哎. 2.自定义UDAD函数优化 sum,count,max,mix等UDAF函阅读全文

posted @ 2021-08-25 19:55 明明就- 阅读(79) 评论(0) 推荐(0)

Kafka Stream数据清洗ETL

摘要： Kafka Streams 1.Apache Kafka开源项目的一个组成部分,是一个功能强大,易于使用的库.用于在Kafka上构建高可分布,可拓展,高容错的应用程序. 2.Kafka Streams特点 1)功能强大:高扩展性,弹性,容错 2)轻量级:无需专门的集群,一个库,而不是框架. 3)完全阅读全文

posted @ 2021-08-25 11:44 明明就- 阅读(671) 评论(0) 推荐(2)

Kafka拦截器-时间戳&消息条数

摘要： Kafka producer拦截器--Interceptor 拦截器原理: producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化逻辑.对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑阅读全文

posted @ 2021-08-25 11:12 明明就- 阅读(496) 评论(0) 推荐(0)

明明就-

公告