2.6

今天学习了如何将Spark与Hadoop集成,使用HDFS作为数据存储。通过Hadoop的HDFS API,Spark可以直接读取和写入HDFS上的文件。

代码示例:

python
复制
from pyspark import SparkContext

sc = SparkContext("local", "HDFS Integration")

# 从HDFS读取文件
hdfs_file = sc.textFile("hdfs://localhost:9000/user/hadoop/input/data.txt")

# 统计文件行数
line_count = hdfs_file.count()

# 打印结果
print("File line count:", line_count)

sc.stop()
运行方式:

将文件上传到HDFS:hdfs dfs -put data.txt /user/hadoop/input/

运行Spark程序读取HDFS文件。

posted @ 2025-02-06 23:57  混沌武士丞  阅读(9)  评论(0)    收藏  举报