随笔分类 -  Kafka

专注于Kafka使用及原理。
摘要:MySQL被广泛用于海量业务的存储数据库,在大数据时代,我们亟需对其中的海量数据进行分析,但在MySQL之上进行大数据分析显然是不现实的,这会影响业务系统的运行稳定。如果我们要实时地分析这些数据,则需要实时地将其复制到适合OLAP的数据系统上。本文介绍一种数据采集工具——Flume,由cloudera软件公司于2009年被捐赠了apache软件基金会,现已成为apache top项目之一。本文使用Flume构建一个对MySQL数据的采集,并投递到Kafka的一个链路。 阅读全文
posted @ 2021-03-01 12:52 JasonCeng 阅读(1079) 评论(6) 推荐(0) 编辑
摘要:Kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。由 LinkedIn 开源,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在是Apache旗下的一个开源系统,作为Hadoop生态系统的一部分,被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于Hadoop的批处理系统、低延迟的实时系统、Flink/Storm/Spark流式处理引擎。可以说是现代分布式系统的基石,学习kafka的使用、原理变得十分必要。本文基于Ubuntu 16.04 LTS,介绍如何搭建1主2备的kafka集群。 阅读全文
posted @ 2021-02-27 15:41 JasonCeng 阅读(849) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示