2.6
今天学习了如何将Spark与Hadoop集成,使用HDFS作为数据存储。通过Hadoop的HDFS API,Spark可以直接读取和写入HDFS上的文件。
代码示例:
python
复制
from pyspark import SparkContext
sc = SparkContext("local", "HDFS Integration")
# 从HDFS读取文件
hdfs_file = sc.textFile("hdfs://localhost:9000/user/hadoop/input/data.txt")
# 统计文件行数
line_count = hdfs_file.count()
# 打印结果
print("File line count:", line_count)
sc.stop()
运行方式:
将文件上传到HDFS:hdfs dfs -put data.txt /user/hadoop/input/
运行Spark程序读取HDFS文件。