03 2020 档案

摘要:使用python编写Spark Streaming实时处理Kafka数据的程序,需要熟悉Spark工作机制和Kafka原理。 1 配置Spark开发Kafka环境 首先点击下载 ,下载Spark连接Kafka的代码库。然后把下载的代码库放到目录 目录下,命令如下: 然后在 目录下新建kafka目录, 阅读全文
posted @ 2020-03-23 00:01 Christine_7 阅读(1077) 评论(0) 推荐(0)
摘要:SASL/PLAIN 是一种简单的 username/password 认证机制, 通常与 TLS 加密一起使用, 用于实现安全认证. Kafka 提供了一个默认的 SASL/PLAIN 实现, 可以做扩展后在生产环境使用. 1 配置kafka server端(每个broker) JAAS文件作为每 阅读全文
posted @ 2020-03-22 23:25 Christine_7 阅读(1502) 评论(0) 推荐(0)
摘要:1 YCSB工具介绍 YCSB全称“Yahoo!Cloud Serving Benchmark”,是雅虎开发的用来对云服务进行基础测试的工具,内部涵盖了常见的NoSQL数据库产品,如Cassandra、MongoDB、HBase、Redis等。在运行YCSB时,可以配置不同的workload和DB, 阅读全文
posted @ 2020-03-22 21:34 Christine_7 阅读(2180) 评论(0) 推荐(0)
摘要:前段时间,由于业务需要对Kafka消息从两方面进行存储,一方面离线分批存储,另一方面在线分布式存储。在存储Kafka消息前,需要了解 "Kafka工作原理" 。 1 离线分批存储 将消费到的Kafka数据打包分批存储到本地 2 在线分布式存储 直接将消费到的Kafka消息写入HBase 服务器调试在 阅读全文
posted @ 2020-03-22 20:33 Christine_7 阅读(615) 评论(0) 推荐(0)