摘要:
Spark MLlib
一、MLlib概述
1、机器学习算法
2、通信
二、什么是机器学习
1、机器学习的定义
2、基于大数据的机器学习
3、MLlib
Spark Graphx
一、Spark Graphx 是什么?
二、Spark GraphX 有哪些抽象?
1、顶点
2、边
3、三元组
4、图 阅读全文
摘要:
一、诊断Spark内存使用
1、内存花费
2、如何判断Spark程序消耗内存情况?
二、使用高性能序列化类库
1、数据序列化概述
2、kryo
3、如何使用kryo序列化机制
4、kryo类库的优化
三、优化数据结构
1、概述
2、如何做
四、rdd.cache checkpoint
五、持久化级别
六、Java虚拟机的调优
1、概述
2、Spark GC原理
3、监测垃圾回收
4、优化Executor内存比例
5、Java GC 调优 (-)
七、shuffle原理
1、优化前
2、优化后
八、其他调优
1、提高并行度
2、广播共享数据 阅读全文
摘要:
一、Spark Streaming基础
1、什么是 Spark Streaming
2、演示官方的Demo
3、开发自己的NetWorkWordCount程序
二、高级特性
1、什么是DStream?离散流
2、重点算子讲解
3、窗口操作
4、集成Spark SQL: 使用SQL语句来处理流式数据
5、缓存和持久化:和RDD一样
6、支持检查点:和RDD一样
三、数据源
1、基本的数据源
2、高级数据源
四、性能优化的参数
1、减少批数据的执行时间
2、设置正确的批容量
3、内存调优 阅读全文