2022 年 11月随笔档案 - 去揽一池星河

SparkSQL 核心编程

摘要：#DataFrame ##创建DataFrame 从 Spark 数据源进行创建 ➢ 查看 Spark 支持创建文件的数据源格式 scala> spark.read. csv format jdbc json load option options orc parquet schema table 阅读全文

posted @ 2022-11-16 18:26 去揽一池星河阅读(21) 评论(0) 推荐(0) 编辑

Hive 练习题

摘要：准备数据 create table gulivideo_ori( videoId string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, com 阅读全文

posted @ 2022-11-13 11:54 去揽一池星河阅读(90) 评论(0) 推荐(0) 编辑

Hive 窗口函数

摘要：#窗口函数（开窗函数） ##函数说明 OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化 CURRENT ROW：当前行 n PRECEDING：往前 n 行数据 n FOLLOWING：往后 n 行数据 UNBOUNDED：起点， UNBOUNDED PRECED 阅读全文

posted @ 2022-11-08 09:40 去揽一池星河阅读(45) 评论(0) 推荐(0) 编辑

Hive 行转列列转行

摘要：#行转列 CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数阅读全文

posted @ 2022-11-06 20:58 去揽一池星河阅读(243) 评论(0) 推荐(0) 编辑

Hive-- CASE WHEN THEN ELSE END 和 IF 函数

摘要：创建本地 emp_sex.txt，导入数据 [atguigu@hadoop102 datas]$ vi emp_sex.txt 悟空 A 男大海 A 男宋宋 B 男凤姐 A 女婷姐 B 女婷婷 B 女创建 hive 表并导入数据 create table emp_sex( name st 阅读全文

posted @ 2022-11-06 16:44 去揽一池星河阅读(333) 评论(0) 推荐(0) 编辑

把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式

摘要：#方式一：上传数据后修复上传数据 -- 创建文件 hive (default)> dfs -mkdir -p/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=13; -- 上传数据 hive (default)> dfs 阅读全文

posted @ 2022-11-05 19:41 去揽一池星河阅读(52) 评论(0) 推荐(0) 编辑

Hive 动态分区 3.0新特征

摘要：下面两者同理，也就是说在动态分区中可以不用继续写parititon，因为最后是按照select 最后一个字段（deptno）去进行分区的 insert into table dept partition(deptno='10') select dname,loc,deptno from dept; 阅读全文

posted @ 2022-11-05 17:43 去揽一池星河阅读(19) 评论(0) 推荐(0) 编辑

Hive Order By,Sort by,Distribute By,Cluster By 排序区别

摘要：#Order By Order By :全局排序，只有一个Reducer，就算提前设置好n个reducer order by 也是只执行一个reducer，因为全局排序，排序的仅仅是一个表罢了。order by 对于大规模数据集效率很低，毕竟只有一个reducer #Sort By Sort By 阅读全文

posted @ 2022-11-05 16:43 去揽一池星河阅读(171) 评论(0) 推荐(0) 编辑

Hive SQL Join连接

摘要：-- dept表 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 -- emp表 7369 SMITH CLERK 7902 1980-12-17 800.00 20 7499 ALLEN SALESMAN 7 阅读全文

posted @ 2022-11-04 20:46 去揽一池星河阅读(96) 评论(0) 推荐(0) 编辑

catch-autumn

11 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜