寒假学习进度
今天开始学习sqark,主要参考学习的是尚硅谷的sqark教程。

1.在idea中添加scala
因为在idea中添加scala插件下载速度过慢,所以用离线添加
在idea官网插件库中下载scala :https://plugins.jetbrains.com/plugin/1347-scala
在plugins中添加scala插件
创建maven工程
添加下载scala2.12.11
添加依赖:
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.0.0</version>
</dependency>
</dependencies>
创建一个scala类测试
用scala框架完成对文本中的单词统计
测试数据1.txt2.txt
代码:package com.chenghaixiang.core.wc
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
object spark01_wordcount {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
val sc : SparkContext = new SparkContext(sparkConf)
val lines: RDD[String]=sc.textFile("data")
val words: RDD[String] = lines.flatMap(_.split(" "))
val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)
val wordtp=wordGroup.map{
case (word, list)=>{
(word,list.size)
}
}
val tuples: Array[(String, Int)] = wordtp.collect()
tuples.foreach(println)
sc.stop()
}
}
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App