spark单机部署

官网
https://spark.apache.org/

# spark版本文档列表
https://spark.apache.org/docs/

# 查看指定版本文档
https://spark.apache.org/docs/2.4.7/

# 下载安装包
https://spark.apache.org/downloads.html
配置环境变量
export SPARK_HOME=/opt/pmo/data/spark/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile

单机部署测试

解压后执行 bin/spark-shell 进入scala命令行
可以执行命令
scala>sc.textFile("/data/testdata.txt").flatMap(_.split(" ")).map(Tuple2(_,1)).reduceByKey(_+_).foreach(println)

文件/data/testdata.txt内容
hello world
hello msb
hello spark
good spark

输出
(spark,2)
(hello,3)
(msb,1)
(good,1)
(world,1)
测试hadoop的文件统计
bin/spark-shell
scala > sc.textFile("/derby.log").filter(line=>line.contains("os")).count()
scala > sc.textFile("/derby.log").count()
使用scala语言统计的代码讲解
在输出日志中会出现地址可以访问代码执行流程:http://DESKTOP-4C0OVBC:4040
只有遇到foreach方法时,流程才会执行,因为foreach内部实现调用了方法runJob
posted @   rbcd  阅读(27)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示