pySpark加载数据

1、加载本地文件

lines=sc.textFile('file:/home/pxy/data/GoodBooks.csv')
for line in lines.take(5):
    print line.encode('utf-8')

效果:

2、从HDFS加载数据

lines=sc.textFile('hdfs://localhost:9000/pxy/film/GoodBooks.csv')
TopFive=lines.take(5)
for line in TopFive[1:]:
    print line.encode('utf-8')

效果:

 

  

  

 

posted @ 2018-06-30 19:08  不起泡沫的洗衣粉  阅读(475)  评论(0编辑  收藏  举报