官网
https://spark.apache.org/
# spark版本文档列表
https://spark.apache.org/docs/
# 查看指定版本文档
https://spark.apache.org/docs/2.4.7/
# 下载安装包
https://spark.apache.org/downloads.html
配置环境变量
export SPARK_HOME=/opt/pmo/data/spark/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile
单机部署测试
解压后执行 bin/spark-shell 进入scala命令行
可以执行命令
scala>sc.textFile("/data/testdata.txt").flatMap(_.split(" ")).map(Tuple2(_,1)).reduceByKey(_+_).foreach(println)
文件/data/testdata.txt内容
hello world
hello msb
hello spark
good spark
输出
(spark,2)
(hello,3)
(msb,1)
(good,1)
(world,1)
测试hadoop的文件统计
bin/spark-shell
scala > sc.textFile("/derby.log").filter(line=>line.contains("os")).count()
scala > sc.textFile("/derby.log").count()
使用scala语言统计的代码讲解
在输出日志中会出现地址可以访问代码执行流程:http:
只有遇到foreach方法时,流程才会执行,因为foreach内部实现调用了方法runJob
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本