随笔分类 -  spark基础

摘要:collect、toArray 将RDD转换为Scala的数组。 collectAsMap 与collect、toArray相似。collectAsMap将key-value型的RDD转换为Scala的map。 注意:map中如果有相同的key,其value只保存最后一个值。 # 创建一个2分区的R 阅读全文
posted @ 2020-11-17 12:05 一路向北321 阅读(1590) 评论(0) 推荐(0) 编辑
摘要:map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues map(function)map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 举 阅读全文
posted @ 2020-11-16 19:11 一路向北321 阅读(315) 评论(0) 推荐(0) 编辑
摘要:以{1, 2, 3, 3}的RDD为例: 函数名 目的 示例 结果 map() 将函数应用于 RDD 中的每个元素,将返回值构成新的 RDD rdd.map(x => x + 1) {2, 3, 4, 4} flatMap() 将函数应用于 RDD 中的每个元素,将返回的迭代器的所有内容构成新的 R 阅读全文
posted @ 2020-11-16 15:57 一路向北321 阅读(320) 评论(0) 推荐(0) 编辑
摘要:本文转载自: (1)在阿里云上搭建 Spark 实验平台 (2)阿里云Centos7.3上 Spark2.3集群的搭建(ok!!!) (3)搭建Spark集群服务器 (4)Spark集群搭建 之前搜的其他博客中都没有具体的关于阿里云上 spark集群的搭建的完整的笔记,自己也是找了好多不同笔记,其中 阅读全文
posted @ 2020-11-05 16:07 一路向北321 阅读(509) 评论(0) 推荐(0) 编辑
摘要:本文转自:Spark 快速入门教程,主要介绍了spark的基本概念和交互式使用(Scala语言),不涉及在独立应用中使用spark、集群部署 1. Spark 是什么 Apache Spark 是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。Spark 正如其名 阅读全文
posted @ 2020-11-05 14:22 一路向北321 阅读(945) 评论(0) 推荐(0) 编辑
摘要:第 11 章 基于 MLlib 的机器学习 阅读全文
posted @ 2020-11-05 11:38 一路向北321 阅读(70) 评论(0) 推荐(0) 编辑
摘要:第 10 章 Spark Streaming 阅读全文
posted @ 2020-11-05 11:36 一路向北321 阅读(58) 评论(0) 推荐(0) 编辑
摘要:第 9 章 Spark SQL 阅读全文
posted @ 2020-11-05 11:35 一路向北321 阅读(101) 评论(0) 推荐(0) 编辑
摘要:第 8 章 Spark 调优与调试 阅读全文
posted @ 2020-11-05 11:33 一路向北321 阅读(68) 评论(0) 推荐(0) 编辑
摘要:第 7 章 在集群上运行 Spark 待续。。。。。 内容总结:第 7 章中也会更详细地讲解如何打包 Spark 应用 阅读全文
posted @ 2020-11-05 11:32 一路向北321 阅读(57) 评论(0) 推荐(0) 编辑
摘要:第 6 章 Spark 编程进阶 待续。。。。 内容总结:第 6 章讨论数值 RDD 的专门函数 阅读全文
posted @ 2020-11-05 11:31 一路向北321 阅读(67) 评论(0) 推荐(0) 编辑
摘要:第 5 章 数据读取与保存 第三章中讲过 数据读取:创建RDD 数据保存:RDD的行动操作。当行动操作结算的结果较大,不能直接放到驱动器进程中时,就会输出到外部保存。 待续。。。 阅读全文
posted @ 2020-11-05 11:28 一路向北321 阅读(94) 评论(0) 推荐(0) 编辑
摘要:第 4 章 键值对操作 待续 内容总结:第 4 章讨论键值对 RDD 的专有操作 阅读全文
posted @ 2020-11-05 11:27 一路向北321 阅读(66) 评论(0) 推荐(0) 编辑
摘要:第 3 章 RDD 编程 目录: 3.1 RDD基础 3.2 创建RDD 3.3 RDD操作 3.4 向spark传递函数 3.5 常见的RDD操作 3.6 持久化 3.1 RDD基础 RDD(Resilient Distributed Dataset):弹性分布式数据集,是一个不可变的分布式对象集 阅读全文
posted @ 2020-10-30 15:47 一路向北321 阅读(157) 评论(0) 推荐(0) 编辑
摘要:第 2 章 Spark 下载与入门 2.1 下载Spark 略 2.2 Spark中Python和Scala的shell 略 2.3 Spark核心概念简介 以Python 版的例子介绍saprk核心概念 例 2-1:Python 行数统计# 1、驱动器程序:交互式运行spark,Spark she 阅读全文
posted @ 2020-10-30 15:44 一路向北321 阅读(158) 评论(0) 推荐(0) 编辑
摘要:第 1 章 Spark 数据分析导论 1.1 Spark是什么 (1)定义:Spark 是一个用来实现快速而通用的集群计算的平台。 (2)特点:处理数据集速度快,因为是在内存中进行计算 (3)用途:交互式查询、流处理、批处理、迭代算法 1.2 一个大一统的软件栈 1.2.1 Spark Core 用 阅读全文
posted @ 2020-10-29 20:09 一路向北321 阅读(142) 评论(0) 推荐(0) 编辑
摘要:1、子雨大数据之Spark入门教程(Python版) 2、Spark 编程指南简体中文版 电子书: 1、Spark快速大数据分析 阅读全文
posted @ 2020-10-15 20:13 一路向北321 阅读(112) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示