2.安装Spark与Python练习

一、安装Spark

1.检查基础环境hadoop,jdk

echo $JAVA_HOME  #检查jdk的路径和版本

start-dfs.sh  #启动Hadoop

jps  #检查

2.下载spark

已安装

3.解压，文件夹重命名、权限

已安装

4.配置文件

cd /usr/local/spark/python/lib/  #转移到此路径

ls  #查看此路径内文件

5.环境变量

cd /usr/local/spark/

sudo ./conf/spark-env.sh.template ./conf/spark-env.sh

vim ./conf/spark-env.sh.template

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

gedit ~/.bashrc

export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9-src.zip(配置文件):PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$PATH:$SPARK_HOME/bin

source ~/.bashrc

6.启动pyspark

 cd /usr/local/spark

 ./bin/pyspark

7.试运行Python代码

二、Python编程练习：英文文本的词频统计

1.准备文本文件

2.读文件

path='/usr/local/spark/ch2.txt'
with open(path) as f:
    text=f.read()

3.预处理：大小写，标点符号，停用词

4.分词

words = text.split()

5.统计每个单词出现的次数

for word in words:
    wc[word]=wc.get(word,0)+1

6.按词频大小排序

wclist=list(wc.items())
wclist.sort(key=lambda x:x[1],reverse=True)

7.结果写文件

print(wclist)

结果截图

posted @ 2022-03-02 17:35 yong权阅读(125) 评论(0) 收藏举报

刷新页面返回顶部

yong权

2.安装Spark与Python练习

公告