摘要:
持久化: 在Spark中,RDD采用惰性求值的机制,每次遇到行动操作,都会从头开始执行计算。每次调用行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据。例如: 可以通过持久化(缓存)机制避免这种重复计算的开销,可以使用persist()方法 阅读全文
摘要:
RDD创建: 从从文件系统中加载数据创建RDD: 1.Spark采用textFile()从文件系统中加载数据创建RDD 可以使本地,分布式系统等 2.把文件的url作为参数 可以是本地文件系统的地址,分布式文件系统HDFS的地址等等 从本地文件中加载数据: sc为系统自动创建的sparkcontex 阅读全文
摘要:
1.spark-shell 交互式编程 (1) 该系总共有多少学生; (2) 该系共开设来多少门课程; (3) Tom 同学的总成绩平均分是多少; (4) 求每名同学的选修的课程门数; (5) 该系 DataBase 课程共有多少人选修 (6) 各门课程的平均分是多少; 2.编写独立应用程序实现数据 阅读全文
摘要:
2.HDFS 常用操作 (1) 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop”; (2) 在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件 test.txt,并在该文件中随便输入一些内容,然后上传到 HDFS 的“/user/had 阅读全文
摘要:
本学期的新课程软件体系结构,之前的编码经验对于软件体系结构的概念十分模糊。一是之前的项目体系太小,逻辑简单,对于体系结构没有太大的要求。二是对于软件体系没有基本的了解,好像也只有之前学的设计模式与软件体系结构沾点关系。在阅读了架构漫谈后,算是有了一些基本的了解。 首先什么是架构,文章的原话是“把一个 阅读全文
摘要:
配置环境变量: 在master节点的终端中执行:vim ~/.bashrc 添加如下配置:export SPARK_HOME=/opt/module/spark-3.1.2 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin 运行source命令使配 阅读全文
摘要:
1.打开file打开ProjectStructure 2.找到Artifact,点击+,打开jar选择From modules 3.选择main class 4.将左框中的不需要的去掉只保留下图两项 5.apply,然后选择Build->Build Artifacts…,在弹出的窗口选择Bulid就 阅读全文
摘要:
1.打开file打开settings,找到plugins,在里面搜索scala并下载 2.新建maven项目 3.将pom.xml文件清空粘贴下面内容: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apach 阅读全文
摘要:
在spark-shell进行词频统计: flatMap将每一行按空格才分成为单词,map映射生成键值对,将单词计数,reduceByKey将相同单词叠加 wordCount.collect()将结果汇集,针对集群 结果: 编写独立程序进行词频统计: 新建wordCount.scala写入以下代码 i 阅读全文
摘要:
使用Scala编写的程序需要使用sbt进行编译打包,相应的,Java程序使用 Maven编译打包,而 Python程序通过spark-submit直接提交 sbt编译打包: 1.安装sbt 下载sbt-launch.jar,拷贝到虚拟机中 2.穿件sbt脚本 创建 sbt 脚本(vim ./sbt) 阅读全文