摘要: 示例一:统计所有单词出现的次数 1、在本地创建文件并上传到hdfs中 #vin data.txt //将文件上传到hadoop的根目录下 #hdfs dfs -put data.txt / 2、在spark中,创建一个RDD并读取文件 %spark var data = sc.textFile("/ 阅读全文
posted @ 2022-01-25 14:06 干了这瓶老干妈 阅读(1330) 评论(0) 推荐(0) 编辑
摘要: 1、创建目录 #hdfs dfs -mkidr /test 2、查询目录结构 #hdfs dfs -ls / 子命令 -R递归查看//查看具体的某个目录:例如#hdfs dfs -ls /test 3、创建文件 #hdfs dfs -touchz /test/data.txt 4、查看文件内容 #h 阅读全文
posted @ 2022-01-25 13:46 干了这瓶老干妈 阅读(2201) 评论(0) 推荐(0) 编辑
摘要: 1、Map函数:通过函数传递源的每个元素,并形成新的分布式数据集。 %spark #并行化集合生成RDD var data = sc.parallelize(List(10,20,30)) %输出结果 data.collect%应用map函数并传递表达式var mapFunc = data.map( 阅读全文
posted @ 2022-01-25 10:23 干了这瓶老干妈 阅读(116) 评论(0) 推荐(0) 编辑
Live2D