旺旺大菠萝 - 博客园

2024年2月28日

摘要：架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏，专栏将会以 Kevin 的架构经验为基础，逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。什么是架构？根据要解决的问题，对目标系统的边界进行界定。并对目标系统按某个原则的进行切分。切分的原则，要便于不同的角色，对阅读全文

posted @ 2024-02-28 17:03 旺旺大菠萝阅读(32) 评论(0) 推荐(0)

2024年2月5日

Spark的缓存机制及CheakPoint

摘要： 1、RDD的缓存机制 RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存阅读全文

posted @ 2024-02-05 20:23 旺旺大菠萝阅读(83) 评论(0) 推荐(0)

Spark基本编程案例

摘要：案例一：计算网页访问量前三名源数据大致预览：编写Scala代码： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 4 阅读全文

posted @ 2024-02-05 20:23 旺旺大菠萝阅读(38) 评论(0) 推荐(0)

Spark RDD高级算子

摘要： 1）mapPartionWithIndex(func) 设置分区，并且查看每个分区中存放的元素查看每个分区中元素需要传递函数作为参数 val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x => "partID:" + 阅读全文

posted @ 2024-02-05 20:23 旺旺大菠萝阅读(21) 评论(0) 推荐(0)

2024年2月2日

Spark基本API解读

摘要： 1. Spark基本API解读首先我们写一段简单的进行单词统计的代码，考察其中出现的API，然后做出整理： import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apa 阅读全文

posted @ 2024-02-02 14:45 旺旺大菠萝阅读(40) 评论(0) 推荐(0)

案例一：Spark版的WordCount程序

摘要：案例一：Spark版的WordCount程序 Step1：创建一个Maven工程。编写Pom文件： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi 阅读全文

posted @ 2024-02-02 14:45 旺旺大菠萝阅读(23) 评论(0) 推荐(0)

大数据学习之Spark RDD算子

摘要： 1：什么是RDD？ RDD(Resilient Distributed DataSet)是分布式数据集。RDD是Spark最基本的数据的抽象。 scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。 RDD特点：具有数据流模型的特点自动容错位置感知调度可伸缩性 R 阅读全文

posted @ 2024-02-02 14:45 旺旺大菠萝阅读(46) 评论(0) 推荐(0)

2024年1月30日

Spark之RDD

摘要：做大数据一定要有一个概念，需要处理的数据量非常大，少则几十T，多则上百P，全部放内存是不可能的，会OOM，必须要用迭代器一条一条处理。 RDD叫做弹性分布式数据集，是早期Spark最核心的概念，是一种数据集合，它的核心就是迭代器。创建方式有两种创建RDD的方式：在驱动程序中并行化现有集合引用阅读全文

posted @ 2024-01-30 15:28 旺旺大菠萝阅读(23) 评论(0) 推荐(0)

2024年1月29日

IDEA安装Scala插件

摘要： IDEA安装Scala插件创建Scala Maven项目建好项目把App、AppTest、MySpec三个类删掉。修改pom文件里scala的版本号。 <properties> <scala.version>2.12.0</scala.version> </properties> 引入spark 阅读全文

posted @ 2024-01-29 16:39 旺旺大菠萝阅读(10) 评论(0) 推荐(0)

Spark处理框架

摘要： Spark处理框架这个里面最核心的是第二层Spark Core，在后面我们会学习到。 Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上。 Spark SQL：提供通过Apache Hive 阅读全文

posted @ 2024-01-29 16:39 旺旺大菠萝阅读(22) 评论(0) 推荐(0)

fan-wang

公告