11 2022 档案
摘要:#DataFrame ##创建DataFrame 从 Spark 数据源进行创建 ➢ 查看 Spark 支持创建文件的数据源格式 scala> spark.read. csv format jdbc json load option options orc parquet schema table
阅读全文
摘要:准备数据 create table gulivideo_ori( videoId string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, com
阅读全文
摘要:#窗口函数(开窗函数) ##函数说明 OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化 CURRENT ROW:当前行 n PRECEDING:往前 n 行数据 n FOLLOWING:往后 n 行数据 UNBOUNDED:起点, UNBOUNDED PRECED
阅读全文
摘要:#行转列 CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参 数间的分隔符。分隔符可以是与剩余参数
阅读全文
摘要:创建本地 emp_sex.txt,导入数据 [atguigu@hadoop102 datas]$ vi emp_sex.txt 悟空 A 男 大海 A 男 宋宋 B 男 凤姐 A 女 婷姐 B 女 婷婷 B 女 创建 hive 表并导入数据 create table emp_sex( name st
阅读全文
摘要:#方式一:上传数据后修复 上传数据 -- 创建文件 hive (default)> dfs -mkdir -p/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=13; -- 上传数据 hive (default)> dfs
阅读全文
摘要:下面两者同理,也就是说 在动态分区中可以不用继续写parititon,因为最后是按照select 最后一个字段(deptno)去进行分区的 insert into table dept partition(deptno='10') select dname,loc,deptno from dept;
阅读全文
摘要:#Order By Order By :全局排序,只有一个Reducer, 就算提前设置好n个reducer order by 也是只执行一个reducer,因为全局排序,排序的仅仅是一个表罢了。order by 对于大规模数据集效率很低,毕竟只有一个reducer #Sort By Sort By
阅读全文
摘要:-- dept表 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 -- emp表 7369 SMITH CLERK 7902 1980-12-17 800.00 20 7499 ALLEN SALESMAN 7
阅读全文