随笔分类 - Kafka
专注于Kafka使用及原理。
摘要:MySQL被广泛用于海量业务的存储数据库,在大数据时代,我们亟需对其中的海量数据进行分析,但在MySQL之上进行大数据分析显然是不现实的,这会影响业务系统的运行稳定。如果我们要实时地分析这些数据,则需要实时地将其复制到适合OLAP的数据系统上。本文介绍一种数据采集工具——Flume,由cloudera软件公司于2009年被捐赠了apache软件基金会,现已成为apache top项目之一。本文使用Flume构建一个对MySQL数据的采集,并投递到Kafka的一个链路。
阅读全文
摘要:Kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。由 LinkedIn 开源,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在是Apache旗下的一个开源系统,作为Hadoop生态系统的一部分,被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于Hadoop的批处理系统、低延迟的实时系统、Flink/Storm/Spark流式处理引擎。可以说是现代分布式系统的基石,学习kafka的使用、原理变得十分必要。本文基于Ubuntu 16.04 LTS,介绍如何搭建1主2备的kafka集群。
阅读全文
