2.6

今天学习了如何将Spark与Hadoop集成，使用HDFS作为数据存储。通过Hadoop的HDFS API，Spark可以直接读取和写入HDFS上的文件。

代码示例：

python
复制
from pyspark import SparkContext

sc = SparkContext("local", "HDFS Integration")

# 从HDFS读取文件
hdfs_file = sc.textFile("hdfs://localhost:9000/user/hadoop/input/data.txt")

# 统计文件行数
line_count = hdfs_file.count()

# 打印结果
print("File line count:", line_count)

sc.stop()
运行方式：

将文件上传到HDFS：hdfs dfs -put data.txt /user/hadoop/input/

运行Spark程序读取HDFS文件。

posted @ 2025-02-06 23:57 混沌武士丞阅读(9) 评论(0) 收藏举报

刷新页面返回顶部