12 2021 档案
摘要:今天继续学习sparkRDD的算子 (1)flatMap def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator11") va
阅读全文
摘要:今天开始学习spark中RDD算子 首先是Value类型 (1)map 练习代码: def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Op
阅读全文
摘要:今天开始学习spark3大数据结构中的RDD 什么是RDD: RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。 RDD有5大核心属性
阅读全文
摘要:今天继续spark的学习,今天完成了Standalone 模式的配置和在windows上的运行 首先是Standalone 模式 更改spark目录下conf文件中的salves文件,添加内容 更改spark目录下conf文件中的spark-env文件,添加内容 export JAVA_HOME=/
阅读全文
摘要:今天接着昨天spark学习 使用spark自己自带的函数完成对文本中的单词统计,昨天代码的进阶版 代码:package com.chenghaixiang.core.wcimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf
阅读全文
摘要:今天开始学习sqark,主要参考学习的是尚硅谷的sqark教程。 Spark 核心模块 1.在idea中添加scala 因为在idea中添加scala插件下载速度过慢,所以用离线添加 在idea官网插件库中下载scala :https://plugins.jetbrains.com/plugin/1
阅读全文
摘要:Mapreduce实例——ChainMapReduce 依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.2.0</version> </de
阅读全文
摘要:Mapreduce实例——倒排索引 依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.2.0</version> </dependency>
阅读全文
摘要:Mapreduce实例——二次排序 依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.2.0</version> </dependency>
阅读全文
摘要:Mapreduce实例——Map端join 依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.2.0</version> </dependen
阅读全文
摘要:Mapreduce实例——单表join 依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.2.0</version> </dependency
阅读全文
摘要:Mapreduce实例——排序 依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.2.0</version> </dependency> <d
阅读全文