07 2017 档案

摘要:Apache Flink是新一代的分布式流式数据处理框架,它统一的处理引擎既可以处理批数据(batch data)也可以处理流式数据(streaming data)。在实际场景中,Flink利用Apache Kafka作为上下游的输入输出十分常见,本文将给出一个可运行的实际例子来集成两者。 1. 目 阅读全文
posted @ 2017-07-23 19:52 huxihx 阅读(55352) 评论(15) 推荐(3) 编辑
摘要:很多用户都有直接使用程序API操作Kafka集群的需求。在0.11版本之前,kafka的服务器端代码(即添加kafka_2.**依赖)提供了AdminClient和AdminUtils可以提供部分的集群管理操作,但社区官网主页并没有给出这两个类的使用文档。用户只能自行查看源代码和测试用例才能了解具体 阅读全文
posted @ 2017-07-15 16:12 huxihx 阅读(4145) 评论(0) 推荐(1) 编辑
摘要:Kafka 0.11版本重新设计了消息以及消息集合,既支持了事务、精确一次处理语义和幂等producer等新功能,又提升了序列化效率节省了网络/磁盘IO。本文着重探讨新版本消息格式的设计与老版本的对比。 阅读全文
posted @ 2017-07-06 15:17 huxihx 阅读(4413) 评论(5) 推荐(3) 编辑