摘要: 目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软件速度更快 4. CentOS 用户配置,Sudo授权 第二部分:Java环境准备 1. JDK1. 阅读全文
posted @ 2017-05-07 23:48 Jonson Li 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点:SparkSession 2.2 创建DataFrames 2.3 非强类型结果集操作 2.4 程序化执行SQL查询 2.5 全局临时视图 2.6 创建DataSets 2.7 与 阅读全文
posted @ 2017-05-07 21:40 Jonson Li 阅读(790) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.Kafka基础概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知识 1.2.2.架构和原理 1.2.3.基本概念 1.2.4.kafka特点 2.Kafka初体验 2.1 环境准备 2.2 Kafka小试牛刀 2.2.1单个broker初体验 2.2.2 多个broker初体 阅读全文
posted @ 2017-05-07 21:39 Jonson Li 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性 阅读全文
posted @ 2017-05-07 21:37 Jonson Li 阅读(1621) 评论(1) 推荐(0) 编辑
摘要: 本节内容 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark on Yarn运行流程 2.5 WordCount执行原理 3.Spark计算引擎原理 3.1 Spark内部原理 3. 阅读全文
posted @ 2017-05-07 21:36 Jonson Li 阅读(625) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.遗留问题答疑 1.1 典型问题解答 1.2 知识点回顾 2.Spark编程基础 2.1 Spark开发四部曲 2.2 RDD典型实例 2.3 非RDD典型实例 3.问题解答 4.参考资料 每一次答疑阶段,我都会站在老师的角度去思考一下,如果是我,我应该怎么回答,每每如此,不禁吓出一身冷 阅读全文
posted @ 2017-05-07 21:34 Jonson Li 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 2.2Hadoop计算框架介绍 3.Spark概述 3.1 Spark出现的技术背景 3.2 Spark核心概念介绍 4. 阅读全文
posted @ 2017-05-07 21:32 Jonson Li 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流式处理技术关键技术 3.1流式处理系统管道构建 3.2流式处理系统关键技术 3.3用户行为分析系统介绍 4.问题答疑 5. 阅读全文
posted @ 2017-05-07 21:29 Jonson Li 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.Spark背景介绍 2.Spark是什么 3.Spark有什么 4.Spark部署 4.1.Spark部署的2方面 4.2.Spark编译 4.3.Spark Standalone部署 4.4.Standalone HA配置 4.5.伪分布式部署 5.Spark任务提交 5.1.Spa 阅读全文
posted @ 2017-05-07 21:28 Jonson Li 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 本节内容 · Spark为什么要分区 · Spark分区原则及方法 · Spark分区案例 · 参考资料 一、Spark为什么要分区 分区概念:分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是 阅读全文
posted @ 2017-05-07 21:27 Jonson Li 阅读(6215) 评论(0) 推荐(0) 编辑