摘要:
官网地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html 一、简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种 阅读全文
摘要:
一、Windows、Linux虚拟机、docker关系图 如果此时在Windows宿主机中pingDocker容器是ping不同的,因为在宿主机上没有通往172.17.0.0/24网络的路由,宿主机会将发往172.17.0.0/24网络的数据发往默认路由,这样就无法到达容器。 二、操作 2.1 关闭 阅读全文
摘要:
一、概述 形成了安装有vim、jdk、ssh的centos镜像,现在我们在这个的基础上继续搭建haoop。 在正式开始前,了解一些docker容器的操作命令 docker ps:查看活动的容器 docker ps -a:查看所有的容器(包括终止状态的) docker images:查看镜像 dock 阅读全文
摘要:
一、检查系统内核 Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。 通过 uname -r 命令查看你当前的内核版本 二、安装Docker 2.1 安装 Docker 软件包和依赖包已经包含在默认的 Cent 阅读全文
摘要:
一、Kafka在zookeeper中存储结构图 二、分析 2.1 topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 2.2 partition状态信息 /brokers/topics/[topic]/partitions/[ 阅读全文
摘要:
一、下载 下载地址: http://kafka.apache.org/downloads.html http://mirrors.hust.edu.cn/apache/ 二、安装前提(zookeeper安装) 参考http://www.cnblogs.com/qingyunzong/p/863433 阅读全文
摘要:
一、高可用的由来 1.1 为何需要Replication 在Kafka在0.8以前的版本中,是没有Replication的,一旦某一个Broker宕机,则其上所有的Partition数据都不可被消费,这与Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Producer都 阅读全文
摘要:
一、Kafka的架构 如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU、Memory等),若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及 阅读全文
摘要:
一、简介 1.1 概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级 阅读全文
摘要:
一、单一代理流配置 1.1 官网介绍 http://flume.apache.org/FlumeUserGuide.html#avro-source 通过一个通道将来源和接收器链接。需要列出源,接收器和通道,为给定的代理,然后指向源和接收器及通道。一个源的实例可以指定多个通道,但只能指定一个接收器实 阅读全文