摘要: 一、Kafka数据收集机制 Kafka集群中由producer负责数据的产生,并发送到对应的Topic;Producer通过push的方式将数据发送到对应Topic的分区 Producer发送到Topic的数据是有key/value键值对组成的,Kafka根据key的不同的值决定数据发送到不同的Pa 阅读全文
posted @ 2017-02-21 18:27 liuming_1992 阅读(7074) 评论(0) 推荐(1) 编辑
摘要: 一个Topic中的所有数据分布式的存储在kafka集群的所有机器(broker)上,以分区(partition)的的形式进行数据存储;每个分区允许存在备份数据/备份分区(存储在同一kafka集群的其它broker上的分区) 每个数据分区在Kafka集群中存在一个broker节点上的分区叫做leade 阅读全文
posted @ 2017-02-21 18:18 liuming_1992 阅读(1692) 评论(0) 推荐(0) 编辑
摘要: 一个Topic分为多个Partition来进行数据管理,一个Partition中的数据是有序、不可变的,使用偏移量(offset)唯一标识一条数据,是一个long类型的数据 Partition接收到producer发送过来数据后,会产生一个递增的offset偏移量数据,同时将数据保存到本地的磁盘文件 阅读全文
posted @ 2017-02-21 18:15 liuming_1992 阅读(946) 评论(0) 推荐(0) 编辑
摘要: 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes( 阅读全文
posted @ 2017-02-21 18:10 liuming_1992 阅读(2570) 评论(0) 推荐(0) 编辑
摘要: Kafka支持的基本命令位于${KAFKA_HOME}/bin文件夹中,主要是kafka-topics.sh命令;Kafka命令参考页面: kafka-0.8.x-帮助文档 -1. 查看帮助信息 bin/kafka-topics.sh --help -2. 创建Topic bin/kafka-top 阅读全文
posted @ 2017-02-21 11:58 liuming_1992 阅读(48495) 评论(0) 推荐(0) 编辑
摘要: Kafka是由LinkedIn公司开发的,之后贡献给Apache基金会,成为Apache的一个顶级项目,开发语言为Scala。提供了各种不同语言的API,具体参考Kafka的cwiki页面; Kafka的安装方式主要分为三种:单机安装、伪分布式安装、分布式安装;安装基本配置一样,区别在于:单机安装是 阅读全文
posted @ 2017-02-21 11:28 liuming_1992 阅读(3025) 评论(0) 推荐(1) 编辑
摘要: Kafka官方介绍:Kafka是一个分布式的流处理平台(0.10.x版本),在kafka0.8.x版本的时候,kafka主要是作为一个分布式的、可分区的、具有副本数的日志服务系统(Kafka™ is a distributed, partitioned, replicated commit log 阅读全文
posted @ 2017-02-21 10:52 liuming_1992 阅读(5980) 评论(0) 推荐(2) 编辑
摘要: Spark RDD的宽依赖中存在Shuffle过程,Spark的Shuffle过程同MapReduce,也依赖于Partitioner数据分区器,Partitioner类的代码依赖结构主要如下所示: 主要是HashPartitioner和RangePartitioner两个类,分别用于根据RDD中k 阅读全文
posted @ 2017-02-08 11:51 liuming_1992 阅读(9284) 评论(0) 推荐(4) 编辑
摘要: 环境:centos6.0 虚拟机 搭建单机版本的spark 前提条件:搭建好hadoop环境 1. 下载scala进行安装 只需要设置环境变量SCALA_HOME和PATH即可 export SCALA_HOME=/home/hadoop/bigdater/scala export PATH=$PA 阅读全文
posted @ 2016-01-27 18:49 liuming_1992 阅读(344) 评论(0) 推荐(0) 编辑
摘要: mysql支持定时任务的创建,要求mysql服务器开始定时任务调度。1. 查看是否开启定时任务执行 SHOW VARIABLES LIKE 'event_scheduler'; // OFF表示没有开启2. 开启定时任务 SET GLOBAL event_scheduler = ON; ... 阅读全文
posted @ 2016-01-21 17:01 liuming_1992 阅读(253) 评论(0) 推荐(0) 编辑