2022年6月8日

摘要: 最近要在 Spark job 中通过 Spark SQL 的方式读取 Elasticsearch 数据,踩了一些坑,总结于此。 环境说明 Spark job 的编写语言为 Scala,scala-library 的版本为 2.11.8。 Spark 相关依赖包的版本为 2.3.2,如 spark-c 阅读全文
posted @ 2022-06-08 20:14 sherlockyb 阅读(2306) 评论(0) 推荐(0) 编辑

2022年5月31日

摘要: 吾日三省吾身,记录一下近期关于工作的几点思考。 好记性不如烂笔头,随手记录的习惯永不过时。 举几个例子。 在项目管理时,通过 Microsoft Excel 或 Google Sheet 制作完整的进度表。表的内容主要涵盖关键目标,对应的 owner 以及指标,可采取总分的方式;可以日或周为单位定期 阅读全文
posted @ 2022-05-31 22:02 sherlockyb 阅读(641) 评论(0) 推荐(1) 编辑

2022年5月11日

摘要: Kafka消息的压缩机制 最近在做 AWS cost saving 的事情,对于 Kafka 消息集群,计划通过压缩消息来减少消息存储所占空间,从而达到减少 cost 的目的。本文将结合源码从 Kafka 支持的消息压缩类型、何时需要压缩、如何开启压缩、何处进行解压缩以及压缩原理来总结 Kafka 整个消息压缩机制。文中所涉 阅读全文
posted @ 2022-05-11 14:04 sherlockyb 阅读(3187) 评论(0) 推荐(1) 编辑