摘要: 本文主要讲解kafka日常运维的命令,包括topic管理、性能测试脚本。 kafka版本0.10.0,安装步骤见 "大数据平台搭建 kafka集群的搭建" 常用脚本 如下所有的命令均基于 ,服务器列表如下: 10.20.112.59 10.20.112.64 10.20.112.65 10.20.1 阅读全文
posted @ 2018-07-04 19:31 aidodoo 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 本文主要讲解泛型、类型边界、协变、逆变的基础概念和应用。 泛型定义和调用 泛型是值定义以类型为参数的类,在 源码中对泛型的使用相当广泛。 一般使用字母 作为类型参数标识符,并放在方括号 中。如果有多个类型参数,则可以依次用A,B,C等参数名称,如 包中特征 中定义如下: trait Map[A, + 阅读全文
posted @ 2018-07-04 15:27 aidodoo 阅读(215) 评论(0) 推荐(1) 编辑
摘要: 本篇主要讲解函数的声明、定义和调用,同时对scala中各种函数进行了实例说明。 阅读全文
posted @ 2018-07-03 16:25 aidodoo 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 概述 Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 streaming computation (流式计算)。 Spark S 阅读全文
posted @ 2018-06-30 13:46 aidodoo 阅读(628) 评论(0) 推荐(0) 编辑
摘要: 基础概念 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, joi 阅读全文
posted @ 2018-06-30 12:36 aidodoo 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 简介 Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 阅读全文
posted @ 2018-06-30 12:18 aidodoo 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 详解spark常用rdd 阅读全文
posted @ 2018-06-30 10:43 aidodoo 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 本篇主要讲解spark运行架构,包含如下内容: Spark运行架构 基本概念 Application Spark的应用程序,包含一个Driver program和若干Executor SparkContext Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node的Execu 阅读全文
posted @ 2018-06-27 22:26 aidodoo 阅读(624) 评论(0) 推荐(0) 编辑
摘要: spark简介和生态系统 Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,相对对hadoop有如下特点 特点 运行速度快 Spark拥有DAG执行引擎,支持 阅读全文
posted @ 2018-06-27 21:55 aidodoo 阅读(520) 评论(0) 推荐(0) 编辑
摘要: 本系列主要讲解kafka基本设计和原理分析,分如下内容: 1. "基本概念" 2. "消息模型" 3. "kafka副本同步机制" 4. "kafka文件存储机制" 5. "kafka数据可靠性和一致性保证" 6. "kafka leader选举" 7. "kafka消息传递语义" 8. "Kafk 阅读全文
posted @ 2018-04-20 10:19 aidodoo 阅读(1116) 评论(0) 推荐(0) 编辑