随笔分类 - Kafka & Flume
摘要:1 什么是kafka Kafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。 2 为什么要使用 kafka,为什么要使用消息队列 缓冲和削峰:上游数据时有突发
阅读全文
摘要:Kafka 的 ack 机制(数据可靠性保证) 0:不等待 broker 返回确认消息 1:等待 topic 中某个 partition leader 保存成功的状态反馈 -1:等待 topic 中某个 partition 所有副本都保存成功的状态反馈 仅设置 acks=-1 也不能保证数据不丢失,
阅读全文
摘要:(1) Receiver 方式 使用 kafka 的高层次 API 进行消费,然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用 Spark Streaming 的预写日志机制(Write Ahead Log,WAL)。该机制会同步地将接收到
阅读全文
摘要:一、消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ 二、消息队列应用场景 以下介绍消息队
阅读全文
摘要:一、消息中间件相关知识 1、概述 消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka,阿里巴巴自主开发Ro
阅读全文
摘要:直接贴面试题: 怎么保证数据 kafka 里的数据安全? 答: 生产者数据的不丢失kafka 的 ack 机制: 在 kafka 发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到。 如果是同步模式:ack 机制能够保证数据的不丢失,如果 ack 设置为 0,风险很大,一般
阅读全文
摘要:1 常见正则表达式语法 题: 1 如何实现Flume数据传输的监控的 使用第三方框架Ganglia实时监控Flume。 2 Flume的Source,Sink,Channel的作用?你们Source是什么类型? 1、作用 (1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数
阅读全文
摘要:1 自定义Source说明 Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、
阅读全文
摘要:4.1 Ganglia的安装与部署 1) 安装httpd服务与php 2) 安装其他依赖 3) 安装ganglia 4) 修改配置文件/etc/httpd/conf.d/ganglia.conf # Ganglia monitoring system php web frontend Alias /
阅读全文
摘要:概述 1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 下面我们来详细介绍一下Flume架构中的组件。 1.2.1 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是F
阅读全文
摘要:尚硅谷大数据技术之Kafka (作者:尚硅谷大数据研发部) 版本:V2.0 第1章 Kafka概述 1.1 消息队列 (1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的
阅读全文
摘要:第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS
阅读全文
摘要:批量处理 传统消息中间件的消息发送和消费整体上是针对单条的。对于生产者而言,它先发一条消息,然后broker返回ACK表示已接收,这里产生2次rpc;对于消费者而言,它先请求接受消息,然后broker返回消息,最后发送ACK表示已消费,这里产生了3次rpc(有些消息中间件会优化一下,broker返回
阅读全文
摘要:一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。 但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核
阅读全文
摘要:Spark Streaming通过push模式和pull模式两种模式来集成Flume push模式:Spark Streaming端会启动一个基于Avro Socket Server的Receiver来接收Flume中的avro sink发来的数据,这个时候Flume avro sink就是作为客户
阅读全文
摘要:Kafka是一个分布式的Streaming处理平台,Kafka可以用于数据库中数据的导入导出,也可以用于实时流的处理,但是Kafka最核心的功能就是作为分布式的消息中间件。 Kafka集群是由多个Broker Server组成的,消息的发送者称为Producer,消息的消费者称为Consumer,t
阅读全文