寒假学习10-实验四补充

Posted on 2022-01-10 19:01 ***Pepsi*** 阅读(54) 评论(0) 收藏举报

2.编写独立应用程序实现数据去重

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件 C。

在/root/spark-local/mycode/remdup目录下新建

mkdir -p src/main/scala目录

新建文件vim remdup.scala

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.SparkConf

import org.apache.spark.HashPartitioner

object RemDup {

def main(args: Array[String]) {

val conf = new SparkConf().setAppName("RemDup")

val sc = new SparkContext(conf)

val data = sc.textFile(dataFile,2)

valres=data.filter(_.trim().length>0).map(line=>(line.trim,"")).partitionBy(newHashPartitioner(1)).groupByKey().sortByKey().keys

res.saveAsTextFile("result")

}

（２）在目录/usr/local/spark/mycode/remdup目录下新建simple.sbt

name := "Simple Project"

version := "1.0"

scalaVersion := "2.12.10"

libraryDependencies += "org.apache.spark" %% "spark-core" % "3.0.0"

（３）在目录/usr/local/spark/mycode/remdup下执行下面命令打包程序

（４）最后在目录/usr/local/spark/mycode/remdup下执行下面命令提交程序

成功了

注：如果目录下没有文件需要自己添加文件夹，否则会报错

3.编写独立应用程序实现求平均值问题

建新目录

在目录下新建文件

在avgscore文件夹下新建simple.sbt文件

打包

成功

提交程序

刷新页面返回顶部

我的语言系统被粉碎了