刘淑婷

2.安装Spark与Python练习

一、安装Spark

  1. 检查基础环境hadoop,jdk                                                                                                                                                                                                                       

     

     

  2.  配置文件、  环境变量                          
    #配置环境
    vim /usr/local/spark/conf/spark-env.sh

     

                                                                                                                                                                    
    # 修改环境变量 vim ~/.bashrc 
    # 生效 source ~/.bashrc

                                                                                                                                                                                                       

  3. 试运行python代码

     

二、Python编程练习:英文文本的词频统计

  1. 准备文本文件                                                                                                                                                                                                                                         

     

     

     

     

  2. 统计每个单词出现的次数
  3. 结果写文件                                                                                                                                                                                                                                            

     

     

三、根据自己的编程习惯搭建编程环境(选做)

  1. 使用Jupyter Notebook调试PySpark程序:参考http://dblab.xmu.edu.cn/blog/2575-2/
  2.  

     

  3. 使用PyCharm参考:Ubuntu 16.04 + PyCharm + spark 运行环境配置https://blog.csdn.net/zhurui_idea/article/details/72982598

posted on 2022-03-06 16:12  树亭  阅读(29)  评论(0编辑  收藏  举报

导航