摘要: Spark和Hadoop是大数据处理领域两个重要的开源框架,它们之间既有紧密的联系也有显著的区别。 联系: 生态兼容:Spark可以无缝运行在Hadoop之上,利用Hadoop Distributed File System (HDFS) 进行数据存储,并且可以通过YARN(Yet Another 阅读全文
posted @ 2024-01-11 10:21 一个小虎牙 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 今天继续rddd练习: from pyspark import SparkConf,SparkContext #创建sparkconf对象 conf = SparkConf().setMaster("local[*]").setAppName("test_app") #基于sparkconf对象创建 阅读全文
posted @ 2024-01-11 10:17 一个小虎牙 阅读(9) 评论(0) 推荐(0) 编辑