风吹过半夏

2022年2月28日

摘要：持久化：在Spark中，RDD采用惰性求值的机制，每次遇到行动操作，都会从头开始执行计算。每次调用行动操作，都会触发一次从头开始的计算。这对于迭代计算而言，代价是很大的，迭代计算经常需要多次重复使用同一组数据。例如：可以通过持久化(缓存）机制避免这种重复计算的开销，可以使用persist()方法阅读全文

posted @ 2022-02-28 22:05 风吹过半夏阅读(109) 评论(0) 推荐(0) 编辑

2022年2月27日

spark学习 RDD编程

摘要： RDD创建：从从文件系统中加载数据创建RDD： 1.Spark采用textFile（）从文件系统中加载数据创建RDD 可以使本地，分布式系统等 2.把文件的url作为参数可以是本地文件系统的地址，分布式文件系统HDFS的地址等等从本地文件中加载数据： sc为系统自动创建的sparkcontex 阅读全文

posted @ 2022-02-27 22:18 风吹过半夏阅读(125) 评论(0) 推荐(0) 编辑

实验四RDD编程初级实践

摘要： 1.spark-shell 交互式编程（1）该系总共有多少学生；（2）该系共开设来多少门课程；（3） Tom 同学的总成绩平均分是多少；（4）求每名同学的选修的课程门数；（5）该系 DataBase 课程共有多少人选修（6）各门课程的平均分是多少； 2.编写独立应用程序实现数据阅读全文

posted @ 2022-02-27 16:32 风吹过半夏阅读(510) 评论(0) 推荐(0) 编辑

实验 3 Spark 和 Hadoop 的安装

摘要： 2．HDFS 常用操作（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；（2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件 test.txt，并在该文件中随便输入一些内容，然后上传到 HDFS 的“/user/had 阅读全文

posted @ 2022-02-27 11:28 风吹过半夏阅读(429) 评论(0) 推荐(0) 编辑

2022年2月26日

大三下架构漫谈读后感

摘要：本学期的新课程软件体系结构，之前的编码经验对于软件体系结构的概念十分模糊。一是之前的项目体系太小，逻辑简单，对于体系结构没有太大的要求。二是对于软件体系没有基本的了解，好像也只有之前学的设计模式与软件体系结构沾点关系。在阅读了架构漫谈后，算是有了一些基本的了解。首先什么是架构，文章的原话是“把一个阅读全文

posted @ 2022-02-26 21:08 风吹过半夏阅读(33) 评论(0) 推荐(0) 编辑

大三寒假学习 spark学习 spark集群环境搭建

摘要：配置环境变量：在master节点的终端中执行：vim ~/.bashrc 添加如下配置：export SPARK_HOME=/opt/module/spark-3.1.2 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin 运行source命令使配阅读全文

posted @ 2022-02-26 21:08 风吹过半夏阅读(32) 评论(0) 推荐(0) 编辑

2022年2月14日

大三寒假学习 spark学习利用Idea编写打包spark程序

摘要： 1.打开file打开ProjectStructure 2.找到Artifact，点击+，打开jar选择From modules 3.选择main class 4.将左框中的不需要的去掉只保留下图两项 5.apply，然后选择Build->Build Artifacts…，在弹出的窗口选择Bulid就阅读全文

posted @ 2022-02-14 11:57 风吹过半夏阅读(80) 评论(0) 推荐(0) 编辑

大三寒假学习 spark学习利用Idea编写spark程序

摘要： 1.打开file打开settings，找到plugins，在里面搜索scala并下载 2.新建maven项目 3.将pom.xml文件清空粘贴下面内容： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apach 阅读全文

posted @ 2022-02-14 11:31 风吹过半夏阅读(68) 评论(0) 推荐(0) 编辑

2022年1月24日

大三寒假学习 spark学习第一个spark应用程序WorldCount

摘要：在spark-shell进行词频统计： flatMap将每一行按空格才分成为单词，map映射生成键值对，将单词计数，reduceByKey将相同单词叠加 wordCount.collect()将结果汇集，针对集群结果：编写独立程序进行词频统计：新建wordCount.scala写入以下代码 i 阅读全文

posted @ 2022-01-24 21:27 风吹过半夏阅读(105) 评论(0) 推荐(0) 编辑

2022年1月23日

大三寒假学习 spark学习编写spark独立应用程序

摘要：使用Scala编写的程序需要使用sbt进行编译打包，相应的，Java程序使用 Maven编译打包，而 Python程序通过spark-submit直接提交 sbt编译打包： 1.安装sbt 下载sbt-launch.jar，拷贝到虚拟机中 2.穿件sbt脚本创建 sbt 脚本（vim ./sbt）阅读全文

posted @ 2022-01-23 21:45 风吹过半夏阅读(180) 评论(0) 推荐(0) 编辑

公告