在集群上运行python编写的spark应用程序时遇到的一些问题…

1、如何将编写的应用程序提交给spark进行处理

首先，在Windows或Linux下编写程序。其次，将编写好的应用程序上传至服务器（自己定义好存放的文件目录）。最后，将程序提交给spark进行处理。如果程序没有问题，一些依赖的包已经安装，配置没有问题，那么程序即可以正常运行。

2、在程序运行过程中可能存在的问题一，JAVA_HOME is not set

错误提示很清楚，JAVA_HOME没有设置，接下来进行设置。进入/opt/cloudera/parcels/SPARK2/lib/spark2/sbin（结合自己spark的安装路径），找到文件spark-config.sh，使用命令vi spark-config.sh打开文件，在文件最后添加export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64（结合自己jdk的安装路径设置）

3、在程序运行过程中可能存在的问题二，No module named ‘***’

错误提示很清楚，这时我们将该模块进行安装即可。使用命令 pip/pip3 install ‘***’（本人更新了pip，根据自己情况）。还可能提示不存在命令pip，我们需要使用yum -y install pip即可。

4、运行spark程序时，发现端口被占用

如果发现端口被占用，则首先使用命令netstat -tln | grep 4040，查找被占用的端口。其次，使用命令lsof -i:4040查看被占用端口的PID。最后，使用命令kill -9 PID杀掉该进程。再次运行解决该问题。

netstat -tln | grep 4040
lsof -i:4040
kill -9 PID

5、pyspark启动时，报错 Could not obtain block

使用jps查看NameNode、DataNode都正常、Spark、HDFS、Hive等也正常，但是还是出现此类问题，这时不妨查看一下防火墙吧，关闭防火墙即可。具体做法请看：https://www.cnblogs.com/ltolstar/p/9775821.html

　　参考博文：https://blog.csdn.net/u013451157/article/details/78943072

未完待续......

posted @ 2018-10-24 16:19 小呆蝎子阅读(2758) 评论(0) 编辑收藏举报

刷新页面返回顶部

在集群上运行python编写的spark应用程序时遇到的一些问题…

公告