Spark-本机安装测试笔记(windows)

Spark

安装Anaconda3

一、上传 Anaconda3-2021.05-Linux-x86_64.sh 到 /export/server/
二、安装Anaconda3-2021.05-Linux-x86_64.sh

sh Anaconda3-2021.05-Linux-x86_64.sh
点击回车
填写yes
填写安装位置路径 /export/server/anaconda3
安装完毕-->重启服务器
检查：重启后路径有（base）标志

三、配置国内镜像源
打开.condarc文件
vim ~/.condarc

  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

四、创建虚拟环境

#创建虚拟环境pyspark,基于python3.8
conda create -n pyspark python=3.8
#切换到虚拟环境
conda activate pyspark
#在虚拟环境中安装包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

五、配置环境变量
配置文件 /etc/profile
配置Spark由如下5个环境变量需要设置

SPARK_HOME: 表示Spark安装路径在哪里
PYSPARK_PYTHON: 表示Spark想运行Python程序, 那么去哪里找python执行器
JAVA_HOME: 告知Spark Java在哪里
HADOOP_CONF_DIR: 告知Spark Hadoop的配置文件在哪里
HADOOP_HOME: 告知Spark Hadoop安装在哪里
例如：

#JAVA_HOME
export JAVA_HOME=/export/server/jdk1.8.0_281
#HADOOP_HOME
export HADOOP_HOME=/export/server/hadoop
#SPARK_HOME
export SPARK_HOME=/export/server/spark
#HADOOP_CONF_DIR
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#PYSPARK_PYTHON
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python

PYSPARK_PYTHON和 JAVA_HOME 需要同样配置在: /root/.bashrc中

#JAVA_HOME
export JAVA_HOME=/export/server/jdk1.8.0_281
#PYSPARK_PYTHON
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python

六、安装spark
资料中提供了: spark-3.2.0-bin-hadoop3.2.tgz

上传这个文件到Linux服务器中
将其解压, 课程中将其解压(安装)到: /export/server内.
tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server/

由于spark目录名称很长, 给其一个软链接:
ln -s /export/server/spark-3.2.0-bin-hadoop3.2 /export/server/spark

七、测试spark
bin/pyspark
bin/pyspark 程序, 可以提供一个 交互式的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码

在这个环境内, 可以运行spark代码
图中的: parallelize 和 map 都是spark提供的API
sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect()

posted @ 2022-06-06 14:53 半个程序猿Cohen_Lee 阅读(135) 评论(0) 收藏举报

没有风的夜

Spark-本机安装测试笔记(windows)

安装Anaconda3

公告