摘要: RDD RDD 是什么 定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区. 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map, 阅读全文
posted @ 2021-01-05 23:02 清风紫雪 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 提交命令sc.textFile(“hdfs://hadoop101:50070/data/wordcount.txt”).collect() spark报异常 这里时HDFS端口问题,将50070端口改为8020再提交sc.textFile(“hdfs://hadoop101:8020/data/w 阅读全文
posted @ 2021-01-05 12:23 清风紫雪 阅读(815) 评论(0) 推荐(0) 编辑