pyspark基于python虚拟环境运行 linux 搭建 pyspark

linux 搭建 pyspark

spark-python版本依赖与三方模块方案

spark-python版本依赖与三方模块方案 - 知乎 (zhihu.com) --py--files

(21条消息) pyspark打包依赖包&使用python虚拟环境_我就算饿死也不做程序员的博客-CSDN博客_python依赖打包 spark

spark. 参数设置

--conf spark.memory.fraction=0.7 \ #统一内存(缓存+Excutor内存)占总内存(统一+other)比例

--conf spark.memory.storageFraction=0.3 \ #缓存占统一内存比例

--conf spark.sql.shuffle.partitions=180 \ #并行度只对SparkSQL有效

--conf spark.default.parallelism=1000 \ #并行度只有在处理RDD时有效

在spark平台上执行Python算法涉及到Python程序的改写，其中import部分需要额外注意。如果我们在执行某个 test.py 程序时需要调用另外一个 common.py，需要在 test.py 内部添加 import common ，而此时的 import common 不能放在程序头部，需要放在context之后。同时在执行程序时需要--py-files 参数指定引用模块的位置。

nohup /usr/hdp/current/spark2-client/bin/spark-submit --master yarn  \
--num-executors 6 \
--executor-memory 1g \
--executor-cores 2 \
--driver-memory 1G \
--driver-cores 1G \
--py-files /xx/xx/common.py \
/xx/xx/test.py &

posted @ 2022-05-06 20:06 cup_leo 阅读(403) 评论(0) 编辑收藏举报

刷新页面返回顶部

cup_leo

pyspark基于python虚拟环境运行 linux 搭建 pyspark

spark-python版本依赖与三方模块方案

公告