11 2020 档案
摘要:collect、toArray 将RDD转换为Scala的数组。 collectAsMap 与collect、toArray相似。collectAsMap将key-value型的RDD转换为Scala的map。 注意:map中如果有相同的key,其value只保存最后一个值。 # 创建一个2分区的R
阅读全文
摘要:map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues map(function)map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 举
阅读全文
摘要:以{1, 2, 3, 3}的RDD为例: 函数名 目的 示例 结果 map() 将函数应用于 RDD 中的每个元素,将返回值构成新的 RDD rdd.map(x => x + 1) {2, 3, 4, 4} flatMap() 将函数应用于 RDD 中的每个元素,将返回的迭代器的所有内容构成新的 R
阅读全文
摘要:一、row_number() 1、语法: row_number() over (partition by col_list1 order by col_list2) rank() over(partition by col_list1 order by col_list2) 2、row_number
阅读全文
摘要:本文转自:flask-admin模型功能参数参照表 can_create = True 是否可以创建 can_edit = True 是否可以编辑 can_delete = True 是否可以删除 list_template = ‘admin/model/list.html‘ 修改显示该模型的htm
阅读全文
摘要:本文转载自: (1)在阿里云上搭建 Spark 实验平台 (2)阿里云Centos7.3上 Spark2.3集群的搭建(ok!!!) (3)搭建Spark集群服务器 (4)Spark集群搭建 之前搜的其他博客中都没有具体的关于阿里云上 spark集群的搭建的完整的笔记,自己也是找了好多不同笔记,其中
阅读全文
摘要:本文转自:Spark 快速入门教程,主要介绍了spark的基本概念和交互式使用(Scala语言),不涉及在独立应用中使用spark、集群部署 1. Spark 是什么 Apache Spark 是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。Spark 正如其名
阅读全文
摘要:第 11 章 基于 MLlib 的机器学习
阅读全文
摘要:第 10 章 Spark Streaming
阅读全文
摘要:第 8 章 Spark 调优与调试
阅读全文
摘要:第 7 章 在集群上运行 Spark 待续。。。。。 内容总结:第 7 章中也会更详细地讲解如何打包 Spark 应用
阅读全文
摘要:第 6 章 Spark 编程进阶 待续。。。。 内容总结:第 6 章讨论数值 RDD 的专门函数
阅读全文
摘要:第 5 章 数据读取与保存 第三章中讲过 数据读取:创建RDD 数据保存:RDD的行动操作。当行动操作结算的结果较大,不能直接放到驱动器进程中时,就会输出到外部保存。 待续。。。
阅读全文
摘要:第 4 章 键值对操作 待续 内容总结:第 4 章讨论键值对 RDD 的专有操作
阅读全文