随笔分类 -  kafka

摘要:1.概述 平时在使用Kafka的时候,可能关注的更多的是Kafka系统层面的。今天来给大家剖析一下Kafka的控制器,了解一下Kafka控制器的选举流程。 2.内容 Kafka控制器,其实就是一个Kafka系统的Broker。它除了具有一般Broker的功能之外,还具有选举主题分区Leader节点的 阅读全文
posted @ 2018-10-21 21:15 哥不是小萝莉 阅读(5298) 评论(3) 推荐(1) 编辑
摘要:1.概述 最近有同学留言反馈了使用Kafka监控工具Kafka Eagle的一些问题,这里笔者特意整理了这些问题。并且希望通过这篇博客来解答这些同学的在使用Kafka Eagle的时候遇到的一些困惑,同时也给出一些定位分析Kafka Eagle异常的时的解决办法。 2.内容 2.1 背景 在使用Ka 阅读全文
posted @ 2018-07-27 01:02 哥不是小萝莉 阅读(39710) 评论(4) 推荐(7) 编辑
摘要:1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔 阅读全文
posted @ 2018-06-22 20:52 哥不是小萝莉 阅读(4108) 评论(2) 推荐(2) 编辑
摘要:1.概述 在Kafka0.9版本之前,Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址,例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。拿到Kafka Broker地址后,连接到Kafk 阅读全文
posted @ 2018-06-17 03:08 哥不是小萝莉 阅读(18795) 评论(3) 推荐(3) 编辑
摘要:1.概述 Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CPU资源)。今天来 阅读全文
posted @ 2018-03-11 02:42 哥不是小萝莉 阅读(14060) 评论(1) 推荐(2) 编辑
摘要:1.概述 Kafka Streams 是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的,能应用到哪些场合,如何使用。笔者今天就给大家来一一剖析这些内容。 2.内容 首先,我们研究这样 阅读全文
posted @ 2017-09-14 11:10 哥不是小萝莉 阅读(7201) 评论(0) 推荐(1) 编辑
摘要:1.概述 Kafka 快速稳定的发展,得到越来越多开发者和使用者的青睐。它的流行得益于它底层的设计和操作简单,存储系统高效,以及充分利用磁盘顺序读写等特性,和其实时在线的业务场景。对于Kafka来说,它是一个分布式的,可分区的,多副本,多订阅者的,基于Zookeeper统一协调的分布式日志系统。常见 阅读全文
posted @ 2017-08-09 16:19 哥不是小萝莉 阅读(2839) 评论(2) 推荐(2) 编辑
摘要:1.概述 我们在了解分布式选举算法之前,我们需要这样一种算法产生的背景。在一个分布式系统中,因为各种意外的因素,有的服务器可能会崩溃或变得不可靠,它就不能和其他服务器达成一致状态。因而这样就需要一种Consensus协议,来确保服务器的容错性,也就是说即使系统中有一两个服务器节点Crash,也不会影 阅读全文
posted @ 2017-07-16 13:37 哥不是小萝莉 阅读(8515) 评论(0) 推荐(1) 编辑
摘要:1.概述 目前,随着大数据的浪潮,Kafka 被越来越多的企业所认可,如今的Kafka已发展到0.10.x,其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说,既可以分流到离线存储平台(HDFS),离线计算平台(Hive仓库),也可以分流实时流水计算(Storm,Spark)等,同样也可以分 阅读全文
posted @ 2017-06-10 14:19 哥不是小萝莉 阅读(23969) 评论(1) 推荐(4) 编辑
摘要:1.概述 在对Kafka使用层面掌握后,进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构,不算太复杂,代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理模块,core模块。 2.内容 首先,我们需要对Kafka的工程结构有一个整体的认知度,Kafka 大家最 阅读全文
posted @ 2017-05-06 18:14 哥不是小萝莉 阅读(19043) 评论(1) 推荐(2) 编辑
摘要:1.概述 在《Kafka 消息监控 - Kafka Eagle》一文中,简单的介绍了 Kafka Eagle这款监控工具的作用,截图预览,以及使用详情。今天笔者通过其源码来解读实现细节。目前该项目已托管于 Github 之上,作者编写了使用手册,告知使用者如何安装,部署,启动该系统。但对于实现的细节 阅读全文
posted @ 2017-03-07 10:56 哥不是小萝莉 阅读(5429) 评论(17) 推荐(4) 编辑
摘要:1.概述 目前,Kafka 官网最新版[0.10.1.1],已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实,早在 0.8.2.2 版本,已支持存入消费的 offset 到Topic中,只是那时候默认是将消费的 offset 存 阅读全文
posted @ 2017-01-09 20:26 哥不是小萝莉 阅读(13712) 评论(0) 推荐(4) 编辑
摘要:1.概述 在 Kafka 集群中,我们可以对每个 Topic 进行一个或是多个分区,并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上,我们可以使用 zkCli 客户端,通过 ls 和 get 命令来查看元数据信息。通过 log.dirs 属性控制消息存放路径,每个分 阅读全文
posted @ 2016-11-04 16:27 哥不是小萝莉 阅读(6879) 评论(2) 推荐(3) 编辑
摘要:1.概述 在开发工作当中,消费 Kafka 集群中的消息时,数据的变动是我们所关心的,当业务并不复杂的前提下,我们可以使用 Kafka 提供的命令工具,配合 Zookeeper 客户端工具,可以很方便的完成我们的工作。随着业务的复杂化,Group 和 Topic 的增加,此时我们使用 Kafka 提 阅读全文
posted @ 2016-09-01 13:15 哥不是小萝莉 阅读(48673) 评论(72) 推荐(9) 编辑
摘要:1.概述 最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务。了解到,在使用 Storm 时,需要编写基于编程语言的代码。比如,要实现一个流水指标的统计,需要去编写相应的业务代码,能不能有一种简便的方式来实现这一需求。在解答了该同学的疑惑后,整理了该实 阅读全文
posted @ 2016-06-05 15:35 哥不是小萝莉 阅读(8814) 评论(3) 推荐(4) 编辑
摘要:1.概述 上次给大家分享了关于 Kafka SQL 的实现思路,这次给大家分享如何实现 Kafka SQL。要实现 Kafka SQL,在上一篇《Kafka - SQL 引擎分享》中分享了其实现的思路,核心包含数据源的加载,以及 SQL 树的映射。今天笔者给大家分享相关实现的代码。 2.内容 这里, 阅读全文
posted @ 2016-05-09 09:46 哥不是小萝莉 阅读(4683) 评论(3) 推荐(2) 编辑
摘要:1.概述 大多数情况下,我们使用 Kafka 只是作为消息处理。在有些情况下,我们需要多次读取 Kafka 集群中的数据。当然,我们可以通过调用 Kafka 的 API 来完成,但是针对不同的业务需求,我们需要去编写不同的接口,在经过编译,打包,发布等一系列流程。最后才能看到我们预想的结果。那么,我 阅读全文
posted @ 2016-04-14 09:33 哥不是小萝莉 阅读(4952) 评论(1) 推荐(5) 编辑
摘要:1.概述 在 Kafka 中,官方对外提供了两种消费 API,一种是高等级消费 API,另一种是低等级的消费 API。在 《高级消费 API》一文中,介绍了其高级消费的 API 实现。今天给大家介绍另一种消费 API。 2.内容 在使用过 Kafka 的高级消费 API 后,我们知道它是一种高度抽象 阅读全文
posted @ 2016-03-04 10:08 哥不是小萝莉 阅读(4699) 评论(2) 推荐(4) 编辑
摘要:1.Overview Ambari是Apache推出的一个集中管理Hadoop的集群的一个平台,可以快速帮助搭建Hadoop及相关以来组件的平台,管理集群方便。这篇博客记录Ambari的相关问题和注意事项。方便为初学者省去搭配各个社区版的烦恼。2.How to works 在Ambari的官方W... 阅读全文
posted @ 2015-12-21 14:47 哥不是小萝莉 阅读(5268) 评论(3) 推荐(3) 编辑
摘要:1.概述 本课程的视频教程地址:《Kafka实战项目之编码实践》 该课程我以用户实时上报日志案例为基础,带着大家去完成各个KPI的编码工作,实现生产模块、消费模块,数据持久化,以及应用调度等工作, 通过对这一系列流程的演示,让大家能够去掌握Kafka项目的相关编码以及调度流程。下面,我们首先来预... 阅读全文
posted @ 2015-10-15 10:50 哥不是小萝莉 阅读(2904) 评论(3) 推荐(3) 编辑

点击右上角即可分享
微信分享提示