04 2022 档案

摘要:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name 阅读全文
posted @ 2022-04-12 15:57 习惯了蓝 阅读(150) 评论(0) 推荐(0) 编辑
摘要:spark-streaming-kafka-0-10源码分析 https://cloud.tencent.com/developer/article/1594316 spark闭包 https://mp.weixin.qq.com/s/l_tfjPMEBjx-63aYyez5Qg 阅读全文
posted @ 2022-04-07 12:45 习惯了蓝 阅读(32) 评论(0) 推荐(0) 编辑
摘要:object KafkaToHbase { def main(args: Array[String]): Unit = { //true a1 g1 ta,tb val Array(isLocal, appName, groupId, allTopics) = args val conf = new 阅读全文
posted @ 2022-04-07 12:23 习惯了蓝 阅读(47) 评论(0) 推荐(0) 编辑
摘要:/** * 从Kafka读取数据,实现ExactlyOnce,偏移量保存到Redis中 * 1.将聚合好的数据,收集到Driver端, * 2.然后将计算好的数据和偏移量在一个pipeline中同时保存到Redis中 * 3.成功了提交事物 * 4.失败了废弃原来的数据并让这个任务重启 */ obj 阅读全文
posted @ 2022-04-05 21:20 习惯了蓝 阅读(109) 评论(0) 推荐(0) 编辑
摘要:/** * 从Kafka读取数据,实现ExactlyOnce,偏移量保存到MySQL中 * 1.将聚合好的数据,收集到Driver端, * 2.然后建计算好的数据和偏移量在一个事物中同时保存到MySQL中 * 3.成功了提交事物 * 4.失败了让这个任务重启 * * MySQL数据库中有两张表:保存 阅读全文
posted @ 2022-04-05 21:19 习惯了蓝 阅读(75) 评论(0) 推荐(0) 编辑
摘要:SparkStream新版本中支持与Kafka直连的方式。下图是默认自动提交偏移量的情况。executor中的task会直连kafka对应的分区,消费完数据会把偏移量写回到kafka中特殊的__consumer_offset中 这种方式控制偏移量不够精准,无法保证数据的一致性,也就是exactly 阅读全文
posted @ 2022-04-05 21:15 习惯了蓝 阅读(451) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示