Spark 学习
环境:Ubuntu 12.04, JDK 1.6, scala 2.11.1, spark 1.0.1, hadoop 1.2.1
一 安装jdk
这里不细说了,自行google吧。
二 安装scala
scala 官网:http://www.scala-lang.org/index.html,download 下来解压
tar -zxvf /mnt/hgfs/mnt/scala-2.11.1.tgz -C /opt
配置一下环境变量即可
vi /etc/profile SCALA_HOME=/opt/scala-2.11.1 PATH=${SCALA_HOME}/bin:${PATH} export SCALA_HOME PATH
测试scala 是否安装成功
which scala; scala -version
输出:Scala code runner version 2.11.1 -- Copyright 2002-2013, LAMP/EPFL 即为成功
三 安装spark
spark 官网:http://spark.apache.org/docs/latest/index.html,download 下来编译好的版本,自己对应hadoop的版本,我这里是hadoop 1.2.1 所以我下载了
spark-1.0.1-bin-hadoop1.tgz包。
解压
tar -zxvf /mnt/hgfs/mnt/spark-1.0.1-bin-hadoop1.tgz -C /opt
配置环境变量
vi /etc/profile SPARK_HOME=/opt/spark-1.0.1-bin-hadoop1 export SPARK_HOME
配置spark,将spark 带的spark-env.sh.template 文件拷贝一份,改名为spark-env.sh。
在spark-env.sh 文件最后增加 SCALA_HOME, JAVA_HOME, SPARK_WORKER_MEMORY, SPARK_MASTER_IP 字段,
注意 SPARK_MASTER_IP 变量千万不要写成 YOURHOSTNAME,囧,写你自己的ip 或者 hostname。
cp /opt/spark-1.0.1-bin-hadoop1/conf/spark-env.sh.template /opt/spark-1.0.1-bin-hadoop1/conf/spark-env.sh; vi /opt/spark-1.0.1-bin-hadoop1/conf/spark-env.sh; export SCALA_HOME=/opt/scala-2.11.1/ export JAVA_HOME=/opt/jdk1.6.0_45 export SPARK_WORKER_MEMORY=1G export SPARK_MASTER_IP=YOURHOSTNAME
给slaves 文件增加主机名,作为奴隶节点
vi /opt/spark-1.0.1-bin-hadoop1/conf/slaves
例如:spark-slave1
四 启动spark
cd /opt/spark-1.0.1-bin-hadoop1/sbin/; ./start-all.sh;
启动所有的节点。在网上搜索spark的部署文章,大部分都说启动文件在$SPARK_HOME/bin下,估计是版本实在太老了。
五 运行spark 的hello world 程序
计算PI的程序
/opt/spark-1.0.1-bin-hadoop1/bin/run-example SparkPi
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 现代计算机视觉入门之:什么是图片特征编码
· 手把手教你在本地部署DeepSeek R1,搭建web-ui ,建议收藏!
· Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
· 数据库服务器 SQL Server 版本升级公告
· C#/.NET/.NET Core技术前沿周刊 | 第 23 期(2025年1.20-1.26)
· 程序员常用高效实用工具推荐,办公效率提升利器!