摘要: 今天先是把手动管理的 offset 从本地文件换成了简单的 Redis 存储,比存本地更贴合实际,代码里加了 Redis 的读写方法,消费完 Kafka 数据后把每个分区的 offset 存到 Redis,程序重启时先从 Redis 读 offset 再开始消费,避免了本地文件在分布式环境下的问题, 阅读全文
posted @ 2026-02-07 19:53 一如初见233 阅读(2) 评论(0) 推荐(0)
摘要: 今天主要学了 Direct 模式的 offset 手动管理和窗口函数的小优化,还把之前的 demo 整合了下。之前用 Direct 模式消费 Kafka,offset 是自动管理的,今天试了手动维护,把 offset 存到本地文件里,这样程序重启后能从上次的位置继续消费,不会丢数据也不会重复消费,代 阅读全文
posted @ 2026-02-06 18:05 一如初见233 阅读(2) 评论(0) 推荐(0)
摘要: Spark 学习第十五天,今天接着昨天的内容,把 Spark Streaming 的 Direct 模式和窗口函数过了一遍。Direct 模式果然比 Receiver 模式简单,不用依赖 ZooKeeper,直接对接 Kafka 的分区,代码里把 createStream 换成 createDire 阅读全文
posted @ 2026-02-05 20:02 一如初见233 阅读(2) 评论(0) 推荐(0)
摘要: 继续搞 Spark Streaming,今天主要学了状态管理和整合 Kafka,都是在昨天基础上改,没学太复杂的底层。昨天的实时 WordCount 只能统计每个批次,没法累加,今天用 updateStateByKey 解决了这个问题,它能把当前批次数据和历史状态结合起来做累计,不过必须先设置 Ch 阅读全文
posted @ 2026-02-04 19:48 一如初见233 阅读(1) 评论(0) 推荐(0)
摘要: Spark Streaming 的核心是DStream,也就是离散流,它把实时接收的数据流切分成一个个小的批次,每个批次的数据都封装成 RDD,后续的处理逻辑就和之前学的 RDD、DataFrame 操作基本一致,简单说就是 “微批处理”—— 把实时流拆成小批量,用批处理的方式做实时计算,这个设计对 阅读全文
posted @ 2026-02-03 20:18 一如初见233 阅读(1) 评论(0) 推荐(0)
摘要: 今天没学新知识点,专门把近期学的 DataFrame、Spark SQL、窗口函数、性能调优、广播变量和累加器这些内容做了全面复盘,找了一份数据,从头到尾走了一遍从数据读取到最终结果输出的完整流程,把零散的知识点串成了体系,终于能独立完成结构化数据的全流程处理了。这次实操选的是包含「用户 ID、商品 阅读全文
posted @ 2026-02-02 18:39 一如初见233 阅读(3) 评论(0) 推荐(0)
摘要: 今天学了 Spark 的广播变量和累加器,这两个都是分布式任务中实用的小工具,解决了之前写代码时遇到的 “小数据传输慢” 和 “全局计数不准” 的问题,也算把结构化数据处理的周边实用技能补全了。之前在做表关联时,总习惯把小表直接和大表 join,后来才发现,每个 Executor 都会复制一份小表数 阅读全文
posted @ 2026-02-01 18:08 一如初见233 阅读(3) 评论(0) 推荐(0)
摘要: 今天学了 Spark 的广播变量和累加器,这两个都是分布式任务中实用的小工具,解决了之前写代码时遇到的 “小数据传输慢” 和 “全局计数不准” 的问题,也算把结构化数据处理的周边实用技能补全了。之前在做表关联时,总习惯把小表直接和大表 join,后来才发现,每个 Executor 都会复制一份小表数 阅读全文
posted @ 2026-01-31 17:18 一如初见233 阅读(3) 评论(0) 推荐(0)
摘要: repartition和coalesce,终于分清了两者的区别和适用场景。repartition会重新洗牌数据,可以任意增加或减少分区数,适合数据分布不均、需要彻底重新分区的场景,但因为有 Shuffle,性能开销稍大;coalesce不会洗牌数据,只能减少分区数(强行增加分区数无效),直接合并现有 阅读全文
posted @ 2026-01-30 20:15 一如初见233 阅读(3) 评论(0) 推荐(0)
摘要: 今天学习 Spark SQL 的窗口函数,终于解决了之前用普通聚合函数搞不定的分组内排名、累计统计这类复杂需求,这也是实际业务中最常用的功能,学完感觉结构化数据处理的能力又上了一个台阶。之前用groupBy做聚合,结果会按分组字段合并行,没法保留原数据的详细信息,比如想统计每个城市薪资前 3 的用户 阅读全文
posted @ 2026-01-29 17:51 一如初见233 阅读(2) 评论(0) 推荐(0)