2022 年 1月 25 日随笔档案 - 干了这瓶老干妈

2022年1月25日

摘要：示例一：统计所有单词出现的次数 1、在本地创建文件并上传到hdfs中 #vin data.txt //将文件上传到hadoop的根目录下 #hdfs dfs -put data.txt / 2、在spark中，创建一个RDD并读取文件 %spark var data = sc.textFile("/ 阅读全文

posted @ 2022-01-25 14:06 干了这瓶老干妈阅读(1330) 评论(0) 推荐(0) 编辑

Hadoop文件操作常用命令

摘要： 1、创建目录 #hdfs dfs -mkidr /test 2、查询目录结构 #hdfs dfs -ls / 子命令 -R递归查看//查看具体的某个目录：例如#hdfs dfs -ls /test 3、创建文件 #hdfs dfs -touchz /test/data.txt 4、查看文件内容 #h 阅读全文

posted @ 2022-01-25 13:46 干了这瓶老干妈阅读(2201) 评论(0) 推荐(0) 编辑

Spack 内置函数

摘要： 1、Map函数：通过函数传递源的每个元素，并形成新的分布式数据集。 %spark #并行化集合生成RDD var data = sc.parallelize(List(10,20,30)) %输出结果 data.collect%应用map函数并传递表达式var mapFunc = data.map( 阅读全文

posted @ 2022-01-25 10:23 干了这瓶老干妈阅读(116) 评论(0) 推荐(0) 编辑

成长小港

公告