spark的默认url路径问题

spark的默认url路径问题:

spark默认从hdfs的当前用户目录下读取数据,即./目录,可以用/来改为hdfs的根目录,不用显式的写成

'hdfs:///192.168.16.128:9000/xx.csv'

的形式,但前提是在spark-env.sh中配置了hadoop配置文件夹的位置:

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.10.1/etc/hadoop

如果没有配置上述环境,会从当前python文件所在的相对目录查找资源。

想使用本地资源可以如下使用:

'file:/usr/local/data/xxx.csv'
posted @ 2021-01-11 17:33  风和雨滴  阅读(804)  评论(9编辑  收藏  举报