随笔分类 -  寒假学习进度

摘要:一、实验目的1.掌握Scala 语言的基本语法、数据结构和控制结构;2.掌握面向对象编程的基础知识,能够编写自定义类和特质;3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉Scala 的容器类库的基本层次结构,熟练使用常用的容器类进行数据;4.熟练掌握Scala 的REPL 运行模式和编译运 阅读全文
posted @ 2024-01-26 17:38 lcz111 阅读(2) 评论(0) 推荐(0) 编辑
摘要:一、实验目的(1)掌握Linux虚拟机的安装方法。Spark和Hadoop等大数据软件在Linux操作系统上运行可以发挥最佳性能,因此,本教程中,Spark都是在Linux系统中进行相关操作,同时,下一章的Scala语言也会在Linux系统中安装和操作。鉴于目前很多读者正在使用Windows操作系统 阅读全文
posted @ 2024-01-24 16:12 lcz111 阅读(5) 评论(0) 推荐(0) 编辑
摘要:Streaming 原理可以参考官网教程:http://spark.apache.org/docs/latest/streaming-programming-guide.html,Spark Streaming提供了称为离散流或DStream的高级抽象,它表示连续的数据流,在内部DStream表示为 阅读全文
posted @ 2024-01-20 22:02 lcz111 阅读(6) 评论(0) 推荐(0) 编辑
摘要:DataFrame的创建Spark2.0版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能; Spa 阅读全文
posted @ 2024-01-18 18:16 lcz111 阅读(11) 评论(0) 推荐(0) 编辑
摘要:Scala匿名函数(函数字面量)Scala中的匿名函数也叫做函数字面量,既可以作为函数的参数使用,也可以将其赋值给一个变量,在匿名函数的定义中“=>”可理解为一个转换器,它使用右侧的算法,将左侧的输入数据转换为新的输出数据,使用匿名函数后,我们的代码变得更简洁了。 val test = (x:Int 阅读全文
posted @ 2024-01-17 18:19 lcz111 阅读(2) 评论(0) 推荐(0) 编辑
摘要:RDD分区RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区分别保存在不同的节点上,分区的作用:(1)增加并行度(2)减少通信开销。RDD分区原则是使得分区的个数尽量等于集群中的CPU核心(core)数目,对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、 阅读全文
posted @ 2024-01-16 18:46 lcz111 阅读(10) 评论(0) 推荐(0) 编辑
摘要:RDD操作对于RDD而言,每一次转换操作都会产生不同的RDD,供给下一个“转换”使用,转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作; 常用的RDD转换操作,总结如下 阅读全文
posted @ 2024-01-13 22:26 lcz111 阅读(7) 评论(0) 推荐(0) 编辑
摘要:RDD概念/特性许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是不同计算阶段之间会重用中间结果, MapReduce框架把中间结果写入到稳定存储(如磁盘)中,带来大量的数据复制、磁盘IO和序列化开销。 RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,开发者不必 阅读全文
posted @ 2024-01-12 22:24 lcz111 阅读(9) 评论(0) 推荐(0) 编辑
摘要:Spark启动和验证直接无参数启动./spark-shell ,运行的是本地模式: 启动./spark-shell –master yarn,运行的是on yarn模式,前提是yarn配置成功并可用: 在hdfs文件系统中创建文件README.md,并读入RDD中,使用RDD自带的参数转换,RDD默 阅读全文
posted @ 2024-01-11 23:18 lcz111 阅读(14) 评论(0) 推荐(0) 编辑
摘要:Spark特性Spark使用简练优雅的Scala语言编写,基于Scala提供了交互式编程体验,同时提供多种方便易用的API。Spark遵循“一个软件栈满足不同应用场景”的设计理念,逐渐形成了一套完整的生态系统(包括 Spark提供内存计算框架、SQL即席查询(Spark SQL)、流式计算(Spar 阅读全文
posted @ 2024-01-10 21:27 lcz111 阅读(7) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示