pyspark基于python虚拟环境运行 linux 搭建 pyspark

 

 linux 搭建 pyspark 

(21条消息) Linux服务器下PySpark环境安装_Viva Python的博客-CSDN博客_pyspark安装

 

pyspark基于python虚拟环境运行 - 倪平凡 - 博客园 (cnblogs.com)

 

 

(21条消息) pyspark使用anaconda后spark-submit方法_crookie的博客-CSDN博客_pyspark spark-submit

 

 

spark-python版本依赖与三方模块方案

spark-python版本依赖与三方模块方案 - 知乎 (zhihu.com)   --py--files

 

 

 

(21条消息) pyspark打包依赖包&使用python虚拟环境_我就算饿死也不做程序员的博客-CSDN博客_python依赖打包 spark

 

 

spark. 参数设置

--conf spark.memory.fraction=0.7 \ #统一内存(缓存+Excutor内存)占总内存(统一+other)比例
--conf spark.memory.storageFraction=0.3 \ #缓存占统一内存比例
--conf spark.sql.shuffle.partitions=180 \ #并行度只对SparkSQL有效
--conf spark.default.parallelism=1000 \ #并行度只有在处理RDD时有效
 
 

在spark平台上执行Python算法涉及到Python程序的改写,其中import部分需要额外注意。如果我们在执行某个 test.py 程序时需要调用另外一个 common.py,需要在 test.py 内部添加 import common ,而此时的 import common 不能放在程序头部,需要放在context之后。同时在执行程序时需要--py-files 参数指定引用模块的位置。

nohup /usr/hdp/current/spark2-client/bin/spark-submit --master yarn  \
--num-executors 6 \
--executor-memory 1g \
--executor-cores 2 \
--driver-memory 1G \
--driver-cores 1G \
--py-files /xx/xx/common.py \
/xx/xx/test.py &

 

 
 
posted @ 2022-05-06 20:06  cup_leo  阅读(403)  评论(0编辑  收藏  举报