随笔分类 -  Hive的使用基础等

摘要:#窗口函数(开窗函数) ##函数说明 OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化 CURRENT ROW:当前行 n PRECEDING:往前 n 行数据 n FOLLOWING:往后 n 行数据 UNBOUNDED:起点, UNBOUNDED PRECED 阅读全文
posted @ 2022-11-08 09:40 去揽一池星河 阅读(45) 评论(0) 推荐(0) 编辑
摘要:#行转列 CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参 数间的分隔符。分隔符可以是与剩余参数 阅读全文
posted @ 2022-11-06 20:58 去揽一池星河 阅读(243) 评论(0) 推荐(0) 编辑
摘要:创建本地 emp_sex.txt,导入数据 [atguigu@hadoop102 datas]$ vi emp_sex.txt 悟空 A 男 大海 A 男 宋宋 B 男 凤姐 A 女 婷姐 B 女 婷婷 B 女 创建 hive 表并导入数据 create table emp_sex( name st 阅读全文
posted @ 2022-11-06 16:44 去揽一池星河 阅读(333) 评论(0) 推荐(0) 编辑
摘要:#方式一:上传数据后修复 上传数据 -- 创建文件 hive (default)> dfs -mkdir -p/user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=13; -- 上传数据 hive (default)> dfs 阅读全文
posted @ 2022-11-05 19:41 去揽一池星河 阅读(52) 评论(0) 推荐(0) 编辑
摘要:下面两者同理,也就是说 在动态分区中可以不用继续写parititon,因为最后是按照select 最后一个字段(deptno)去进行分区的 insert into table dept partition(deptno='10') select dname,loc,deptno from dept; 阅读全文
posted @ 2022-11-05 17:43 去揽一池星河 阅读(19) 评论(0) 推荐(0) 编辑
摘要:#Order By Order By :全局排序,只有一个Reducer, 就算提前设置好n个reducer order by 也是只执行一个reducer,因为全局排序,排序的仅仅是一个表罢了。order by 对于大规模数据集效率很低,毕竟只有一个reducer #Sort By Sort By 阅读全文
posted @ 2022-11-05 16:43 去揽一池星河 阅读(171) 评论(0) 推荐(0) 编辑
摘要:-- dept表 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 -- emp表 7369 SMITH CLERK 7902 1980-12-17 800.00 20 7499 ALLEN SALESMAN 7 阅读全文
posted @ 2022-11-04 20:46 去揽一池星河 阅读(96) 评论(0) 推荐(0) 编辑
摘要:接着上Hive 大数据开发(一套打通)继续写 PS:最好是手敲代码一遍,有些代码可能是中文输入法打出来的,因为SQL代码块显示不出来Hive语法,导致看不出来到底是什么地方出现错误。所以盲目的直接复制粘贴会出现报错信息 用到的flights文件链接: 链接:https://pan.baidu.com 阅读全文
posted @ 2022-10-26 11:52 去揽一池星河 阅读(379) 评论(0) 推荐(0) 编辑
摘要:Hive数据分析 1、Hive基本概念 1.1、Hive简介 1.1.1、什么是Hive Hive由Facebook实现并开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能,底层数据是存储在HDFS上。Hive的本质是将SQL语句 阅读全文
posted @ 2022-10-24 20:56 去揽一池星河 阅读(164) 评论(0) 推荐(0) 编辑
摘要:Hive Bucketed Tables 分桶表 分桶表也是桶表( bucket) 是一种用于优化查询而设计的表类型 分桶表把数据文件在底层分解若干个部分(被拆分某干个小文件) 分桶要指定字段分到哪个分桶 分桶规则:桶编号相同的数据回分到同一个桶里面 hash_function 取决于分桶字段buc 阅读全文
posted @ 2022-10-21 20:16 去揽一池星河 阅读(151) 评论(0) 推荐(0) 编辑
摘要:Hive 内部表、外部表 什么是内部表 内部表(Internal table)也称为被Hive拥有和管理的托管表(Managed table)。 默认情况下创建的表就是内部表,Hive拥有该表的结构和文件。换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。 当您删除内部 阅读全文
posted @ 2022-10-20 20:02 去揽一池星河 阅读(65) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示