Spark-本机安装测试笔记(windows)
Spark
安装Anaconda3
一、 上传 Anaconda3-2021.05-Linux-x86_64.sh 到 /export/server/
二、 安装Anaconda3-2021.05-Linux-x86_64.sh
sh Anaconda3-2021.05-Linux-x86_64.sh
- 点击 回车
- 填写yes
- 填写安装位置路径
/export/server/anaconda3
- 安装完毕-->重启服务器
- 检查:重启后路径有(base)标志
三、 配置国内镜像源
打开.condarc文件
vim ~/.condarc
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
四、创建虚拟环境
#创建虚拟环境pyspark,基于python3.8
conda create -n pyspark python=3.8
#切换到虚拟环境
conda activate pyspark
#在虚拟环境中安装包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
五、配置环境变量
配置文件 /etc/profile
配置Spark由如下5个环境变量需要设置
- SPARK_HOME: 表示Spark安装路径在哪里
- PYSPARK_PYTHON: 表示Spark想运行Python程序, 那么去哪里找python执行器
- JAVA_HOME: 告知Spark Java在哪里
- HADOOP_CONF_DIR: 告知Spark Hadoop的配置文件在哪里
- HADOOP_HOME: 告知Spark Hadoop安装在哪里
例如:
#JAVA_HOME
export JAVA_HOME=/export/server/jdk1.8.0_281
#HADOOP_HOME
export HADOOP_HOME=/export/server/hadoop
#SPARK_HOME
export SPARK_HOME=/export/server/spark
#HADOOP_CONF_DIR
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#PYSPARK_PYTHON
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
PYSPARK_PYTHON和 JAVA_HOME 需要同样配置在: /root/.bashrc
中
#JAVA_HOME
export JAVA_HOME=/export/server/jdk1.8.0_281
#PYSPARK_PYTHON
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
六、安装spark
资料中提供了: spark-3.2.0-bin-hadoop3.2.tgz
- 上传这个文件到Linux服务器中
- 将其解压, 课程中将其解压(安装)到:
/export/server
内.
tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server/
由于spark目录名称很长, 给其一个软链接:
ln -s /export/server/spark-3.2.0-bin-hadoop3.2 /export/server/spark
七、测试spark
bin/pyspark
bin/pyspark 程序, 可以提供一个 交互式
的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码
在这个环境内, 可以运行spark代码
图中的: parallelize
和 map
都是spark提供的API
sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect()