摘要: Spark MLlib 一、MLlib概述 1、机器学习算法 2、通信 二、什么是机器学习 1、机器学习的定义 2、基于大数据的机器学习 3、MLlib Spark Graphx 一、Spark Graphx 是什么? 二、Spark GraphX 有哪些抽象? 1、顶点 2、边 3、三元组 4、图 阅读全文
posted @ 2019-04-19 21:40 hsiehchou 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 一、诊断Spark内存使用 1、内存花费 2、如何判断Spark程序消耗内存情况? 二、使用高性能序列化类库 1、数据序列化概述 2、kryo 3、如何使用kryo序列化机制 4、kryo类库的优化 三、优化数据结构 1、概述 2、如何做 四、rdd.cache checkpoint 五、持久化级别 六、Java虚拟机的调优 1、概述 2、Spark GC原理 3、监测垃圾回收 4、优化Executor内存比例 5、Java GC 调优 (-) 七、shuffle原理 1、优化前 2、优化后 八、其他调优 1、提高并行度 2、广播共享数据 阅读全文
posted @ 2019-04-19 21:39 hsiehchou 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 一、Spark Streaming基础 1、什么是 Spark Streaming 2、演示官方的Demo 3、开发自己的NetWorkWordCount程序 二、高级特性 1、什么是DStream?离散流 2、重点算子讲解 3、窗口操作 4、集成Spark SQL: 使用SQL语句来处理流式数据 5、缓存和持久化:和RDD一样 6、支持检查点:和RDD一样 三、数据源 1、基本的数据源 2、高级数据源 四、性能优化的参数 1、减少批数据的执行时间 2、设置正确的批容量 3、内存调优 阅读全文
posted @ 2019-04-19 21:38 hsiehchou 阅读(152) 评论(0) 推荐(0) 编辑