摘要: ps:具体Kafka Flumn SparkStreaming的使用 参考前几篇博客 (1) 在slave机器上配置broker 1) 点击CDH上的kafka进入kafka功能界面,切换到实例页签,点击下方的“添加角色实例”进入添加角色实例界面。 2) 进入添加角色界面,点击Kafka Broke 阅读全文
posted @ 2019-06-21 12:04 酱油党° 阅读(575) 评论(1) 推荐(0) 编辑
摘要: SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。 同Spark初始化需要创建 阅读全文
posted @ 2019-06-21 12:00 酱油党° 阅读(233) 评论(1) 推荐(0) 编辑
摘要: 一个典型的Kafka体系结构包括若干Producer、若干Broker、若干Consumer,以及一个ZooKeeper集群,如下图所示。其中ZooKeeper是Kafka用来负责集群元数据的管理、控制器的选举等操作的。Producer将消息发送到Broker,Broker负责将收到的消息存储到磁盘 阅读全文
posted @ 2019-06-21 11:59 酱油党° 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 数据发生器产生的数据被被单个的运行在数据发生器所在服务器上的agent所收集,之后数据收容器从各个agent上汇集数据并将采集到的数据存入到HDFS或者HBase中。 一个数据单元,消息头和消息体组成。(Events可以是日志记录、 avro 对象等。) Flume 运行的核心是 Agent。Flu 阅读全文
posted @ 2019-06-21 11:58 酱油党° 阅读(320) 评论(0) 推荐(0) 编辑