随笔分类 -  spark

摘要:1 转换算子(transformer)(将旧的RDD包装成新RDD) 1.1 单值类型 1.1.1 map 多个分区之间是并行的,分区内的数据是串行执行的 def main(args: Array[String]): Unit = { val sparkConfig: SparkConf = new 阅读全文
posted @ 2022-11-20 23:10 宝树呐 阅读(15501) 评论(0) 推荐(0) 编辑
摘要:1. RDD的创建方式 1.1 从内存创建RDD 主要依赖如下两个方法 parallelize makeRDD 底层调用的还是parallelize def main(args: Array[String]): Unit = { val sparkConfig: SparkConf = new Sp 阅读全文
posted @ 2022-11-20 16:31 宝树呐 阅读(302) 评论(0) 推荐(0) 编辑
摘要:1. RDD基本概念 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的==数据处理模型==。代码中是一个抽象类,它代表了一个弹性的、不可变的、可分区、里面的元素可并行计算的集合。 1.1 弹性 存储的弹性:内存和磁盘的自动切换 因为内存 阅读全文
posted @ 2022-11-14 22:30 宝树呐 阅读(123) 评论(0) 推荐(0) 编辑
摘要:1. 上传文件到hdfs # 前提挂载了 -v ~/bilibili/input_files:/input_files # hdfs创建input文件夹 docker exec namenode hdfs dfs -mkdir /input # 将容器内input_files文件夹下的1.txt上传 阅读全文
posted @ 2022-11-14 22:28 宝树呐 阅读(409) 评论(0) 推荐(0) 编辑
摘要:实现思路 实现1: scala 基本集合操作方式获取结果 package com.lzw.bigdata.spark.core.wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkCon 阅读全文
posted @ 2022-11-14 22:27 宝树呐 阅读(110) 评论(0) 推荐(0) 编辑
摘要:基本概念 spark主要是计算框架 spark 核心模块 spark core (核心) spark core 提供了最基础最核心的功能,其他的功能比如 spark sql, spark streaming, graphx, MLlib 都是在此基础上扩展的 spark sql (结构化数据操作) 阅读全文
posted @ 2022-11-14 22:25 宝树呐 阅读(214) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示