随笔分类 -  Hive

关于Hive的学习和应用
摘要:Hive之优化 第一节:简介 hive的优化 mapreduce的优化 1个reducetask对应的数据量最好不超过2G reducetask的个数最好不超过0.95*datanode的个数 第二节:优化手段 一、合理选择排序 二、合理做笛卡尔积 三、in/exists效率低 hive 高效实现手 阅读全文
posted @ 2020-07-21 14:49 整合侠 阅读(144) 评论(0) 推荐(0) 编辑
摘要:Hive之数据倾斜 第一节:简介 一、数据倾斜 数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 大数据中不怕数据量大,怕数据倾斜。 hive的数据倾斜 mapreduce的数据倾斜。 二、主要表现形式 hive运行日志中 map 100% reduce 97% map 100 阅读全文
posted @ 2020-07-21 14:48 整合侠 阅读(430) 评论(0) 推荐(0) 编辑
摘要:Hive之执行流程 一、简介 hive运行的本质就是将hql语句,转换为一组操作符 operator。这里的 operator 代表 mapreduce操作和hdfs的操作,是hive执行hql语句的最小单位。 二、几个典型语句的分析 1、join 2、group by 3、order by shu 阅读全文
posted @ 2020-07-21 14:46 整合侠 阅读(394) 评论(0) 推荐(0) 编辑
摘要:Hive的高级应用 一、进入hive之前的操作 1、简介 进入hive客户端之前的操作 hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] 2、设置参数相关的 (1)-hiveconf -hiveconf 阅读全文
posted @ 2020-07-21 14:45 整合侠 阅读(303) 评论(0) 推荐(0) 编辑
摘要:Hive之函数 第一节:内置函数 一、显示内置函数列表 show functions; 默认271个 二、查看函数的基本使用 desc function funname; desc function max; 三、查看函数的详细使用教程 desc function extended funname; 阅读全文
posted @ 2020-07-21 14:43 整合侠 阅读(402) 评论(0) 推荐(0) 编辑
摘要:Hive之数据类型 第一节:原子数据类型 9种 整型4种 :tinyint、smallint、int、bigint 浮点型:float 、double 布尔:boolean 字符串:string 时间戳:timestamp 第二节:复杂数据类型 一、简介 所有的复杂数据类型都是由原子数据类型构成 二 阅读全文
posted @ 2020-07-21 14:42 整合侠 阅读(441) 评论(0) 推荐(0) 编辑
摘要:Hive之数据组织形式 第一节:数据库 Hive的数据库同mysql中的数据库,将数据进行细化管理,不同业务模块的数据放在一个数据库中。 第二节:数据表 一、按管理权限分 1、内部表 管理权限是hive自己,hive对表中的数据(原始数据)有绝对的增删权限的。内部表在进行删除表的时候,表中的数据(h 阅读全文
posted @ 2020-07-21 14:40 整合侠 阅读(407) 评论(0) 推荐(0) 编辑
摘要:Hive操作 1、建库 create database mydb;create database if no exists mydb;create database if no exists mydb location "/aa/bb"; 2、查询数据库查询库列表:show databases;查询 阅读全文
posted @ 2020-07-21 14:39 整合侠 阅读(167) 评论(0) 推荐(0) 编辑
摘要:Hive简介 第一节:hive的产生背景 mapreduce处理的绝大多数的数据,都是格式化的数据。格式化的数据的处理sql最擅长。mapjoin reducejoin的开发代码要写40行,而sql就一个sql语句就可以了,例如:select * from a join b on a.id=b.id 阅读全文
posted @ 2020-07-21 14:38 整合侠 阅读(729) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示