随笔分类 - Kafka

Kafka深度解析（如何在producer中指定partition）（转）

摘要：Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：解耦在项目启动之初来预测将来项目会碰到什么需求，是极其困难的。消息队列在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束冗余阅读全文

posted @ 2016-03-14 10:54 ~风轻云淡~ 阅读(15142) 评论(0) 推荐(0) 编辑

使用Log4j将程序日志实时写入Kafka（转）

摘要：原文链接：使用Log4j将程序日志实时写入Kafka 很多应用程序使用Log4j记录日志，如何使用Kafka实时的收集与存储这些Log4j产生的日志呢？一种方案是使用其他组件（比如Flume，或者自己开发程序）实时监控这些日志文件，然后发送至Kafka。而另外一种比较便捷的方案是使用Kafka自带的阅读全文

posted @ 2016-03-11 16:53 ~风轻云淡~ 阅读(13875) 评论(0) 推荐(0) 编辑

java实时监听日志写入kafka（转）

摘要：原文链接：http://www.sjsjw.com/kf_cloud/article/020376ABA013802.asp 目的实时监听某目录下的日志文件，如有新文件切换到新文件，并同步写入kafka，同时记录日志文件的行位置，以应对进程异常退出，能从上次的文件位置开始读取（考虑到效率，这里是每阅读全文

posted @ 2016-03-11 16:23 ~风轻云淡~ 阅读(4800) 评论(0) 推荐(0) 编辑

FLume监控文件夹，将数据发送给Kafka以及HDFS的配置文件详解

摘要：详细配置文件flume-conf.properties如下：############################################# producer config############################################agent sectionp... 阅读全文

posted @ 2015-11-28 11:25 ~风轻云淡~ 阅读(5154) 评论(1) 推荐(0) 编辑

spark读取 kafka nginx网站日志消息并写入HDFS中（转）

摘要：原文链接：spark读取 kafka nginx网站日志消息并写入HDFS中spark 版本为1.0kafka 版本为0.8首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用于kafka 日志收集的A 192.168.1.1 为serverB 192.168.1.2 为produc... 阅读全文

posted @ 2015-11-24 11:23 ~风轻云淡~ 阅读(806) 评论(0) 推荐(0) 编辑

Kafka实战－Flume到Kafka （转）

摘要：原文链接：Kafka实战－Flume到Kafka1.概述前面给大家介绍了整个Kafka项目的开发流程，今天给大家分享Kafka如何获取数据源，即Kafka生产数据。下面是今天要分享的目录：数据来源Flume到Kafka数据源加载预览下面开始今天的分享内容。2.数据来源 Kafka生产的数据... 阅读全文

posted @ 2015-11-16 17:03 ~风轻云淡~ 阅读(4400) 评论(0) 推荐(0) 编辑

flume和kafka整合（转）

摘要：原文链接：Kafka flume 整合前提前提是要先把flume和kafka独立的部分先搭建好。下载插件包下载flume-kafka-plus:https://github.com/beyondj2ee/flumeng-kafka-plugin把lib目录下的和package下的都放到flume的... 阅读全文

posted @ 2015-11-16 14:06 ~风轻云淡~ 阅读(1411) 评论(0) 推荐(0) 编辑

【采集层】Kafka 与 Flume 如何选择（转）

摘要：原文链接：【采集层】Kafka 与 Flume 如何选择采集层主要可以使用Flume, Kafka两种技术。Flume：Flume是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.Kafka：Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。你可以有许多... 阅读全文

posted @ 2015-11-13 15:53 ~风轻云淡~ 阅读(724) 评论(0) 推荐(0) 编辑

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）

摘要：Apache Spark 1.3.0引入了Direct API，利用Kafka的低层次API从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量，而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中，这将导致那些基于偏移量的Kafka集群监控软件（比如：Apache Kafka监控之Kafka Web Console、Apache Kafka监控之KafkaOffsetMonitor等）失效。本文就是基于为了解决这个问题，使得我们编写的Spark Streaming程序能够在每次接收到数据之后自动地更新Zookeeper中Kafka的偏移量。阅读全文

posted @ 2015-11-13 10:38 ~风轻云淡~ 阅读(7674) 评论(0) 推荐(0) 编辑

spark streaming 接收 kafka 数据java代码WordCount示例

摘要：1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码，生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.producer.Producer; impo... 阅读全文

posted @ 2015-11-12 17:12 ~风轻云淡~ 阅读(23466) 评论(9) 推荐(0) 编辑

Kafka0.8.2删除topic逻辑（转）

摘要：原文链接：Kafka0.8.2.1删除topic逻辑前提条件：在启动broker时候开启删除topic的开关，即在server.properties中添加：delete.topic.enable=true命令：bin/kafka-topics.sh --zookeeper zk_host:port... 阅读全文

posted @ 2015-11-09 20:15 ~风轻云淡~ 阅读(2612) 评论(2) 推荐(0) 编辑

apache kafka监控系列-KafkaOffsetMonitor（转）

摘要：原文链接：apache kafka监控系列-KafkaOffsetMonitor 概览最近kafka server消息服务上线了，基于jmx指标参数也写到zabbix中了，但总觉得缺少点什么东西，可视化可操作的界面。zabbix中数据比较分散，不能集中看整个集群情况。或者一个cluster中br... 阅读全文

posted @ 2015-11-09 18:59 ~风轻云淡~ 阅读(1874) 评论(0) 推荐(0) 编辑

kafka生产者、消费者java示例

摘要：1. 生产者import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig... 阅读全文

posted @ 2015-11-09 16:06 ~风轻云淡~ 阅读(20098) 评论(21) 推荐(0) 编辑