摘要: RDD创建: 从从文件系统中加载数据创建RDD: 1.Spark采用textFile()从文件系统中加载数据创建RDD 可以使本地,分布式系统等 2.把文件的url作为参数 可以是本地文件系统的地址,分布式文件系统HDFS的地址等等 从本地文件中加载数据: sc为系统自动创建的sparkcontex 阅读全文
posted @ 2022-02-27 22:18 风吹过半夏 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 1.spark-shell 交互式编程 (1) 该系总共有多少学生; (2) 该系共开设来多少门课程; (3) Tom 同学的总成绩平均分是多少; (4) 求每名同学的选修的课程门数; (5) 该系 DataBase 课程共有多少人选修 (6) 各门课程的平均分是多少; 2.编写独立应用程序实现数据 阅读全文
posted @ 2022-02-27 16:32 风吹过半夏 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 2.HDFS 常用操作 (1) 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop”; (2) 在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件 test.txt,并在该文件中随便输入一些内容,然后上传到 HDFS 的“/user/had 阅读全文
posted @ 2022-02-27 11:28 风吹过半夏 阅读(395) 评论(0) 推荐(0) 编辑