Spark-本机安装测试笔记(windows)

Spark

安装Anaconda3

一、 上传 Anaconda3-2021.05-Linux-x86_64.sh 到 /export/server/
二、 安装Anaconda3-2021.05-Linux-x86_64.sh

  1. sh Anaconda3-2021.05-Linux-x86_64.sh
  2. 点击 回车
  3. 填写yes
  4. 填写安装位置路径 /export/server/anaconda3
  5. 安装完毕-->重启服务器
  6. 检查:重启后路径有(base)标志

三、 配置国内镜像源
打开.condarc文件
vim ~/.condarc

  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

四、创建虚拟环境

#创建虚拟环境pyspark,基于python3.8
conda create -n pyspark python=3.8
#切换到虚拟环境
conda activate pyspark
#在虚拟环境中安装包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 

五、配置环境变量
配置文件 /etc/profile
配置Spark由如下5个环境变量需要设置

  • SPARK_HOME: 表示Spark安装路径在哪里
  • PYSPARK_PYTHON: 表示Spark想运行Python程序, 那么去哪里找python执行器
  • JAVA_HOME: 告知Spark Java在哪里
  • HADOOP_CONF_DIR: 告知Spark Hadoop的配置文件在哪里
  • HADOOP_HOME: 告知Spark  Hadoop安装在哪里
    例如:
#JAVA_HOME
export JAVA_HOME=/export/server/jdk1.8.0_281
#HADOOP_HOME
export HADOOP_HOME=/export/server/hadoop
#SPARK_HOME
export SPARK_HOME=/export/server/spark
#HADOOP_CONF_DIR
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#PYSPARK_PYTHON
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
 

PYSPARK_PYTHON和 JAVA_HOME 需要同样配置在: /root/.bashrc

#JAVA_HOME
export JAVA_HOME=/export/server/jdk1.8.0_281
#PYSPARK_PYTHON
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python

六、安装spark
资料中提供了: spark-3.2.0-bin-hadoop3.2.tgz

  1. 上传这个文件到Linux服务器中
  2. 将其解压, 课程中将其解压(安装)到: /export/server内.
    tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server/

由于spark目录名称很长, 给其一个软链接:
ln -s /export/server/spark-3.2.0-bin-hadoop3.2 /export/server/spark

七、测试spark
bin/pyspark
bin/pyspark 程序, 可以提供一个  交互式的 Python解释器环境, 在这里面可以写普通python代码, 以及spark代码

在这个环境内, 可以运行spark代码
图中的: parallelizemap 都是spark提供的API
sc.parallelize([1,2,3,4,5]).map(lambda x: x + 1).collect()

posted @ 2022-06-06 14:53  半个程序猿Cohen_Lee  阅读(116)  评论(0编辑  收藏  举报