摘要:
1. 数据仓库基本介绍 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数 阅读全文
摘要:
Hive 主流文件存储格式对比 1、存储文件的压缩比测试 创建表,存储数据格式为TextFile 创建表,存储数据格式为TextFile 向表中加载数据 向表中加载数据 查看表的数据量大小 查看表的数据量大小 创建表,存储数据格式为 parquet 创建表,存储数据格式为 parquet 向表中加载 阅读全文
摘要:
1. hive表的数据压缩 1.1 数据的压缩说明 压缩模式评价 可使用以下三种标准对压缩方式进行评价 1、压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2、压缩时间:越快越好 3、已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化 压 阅读全文
摘要:
1. 基本查询 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 SQL 阅读全文
摘要:
1. Hive的分区表 1.1 hive的分区表的概念 1.2 hive分区表的构建 创建一个分区字段的分区表 创建一个分区字段的分区表 创建二级分区表 创建二级分区表 2、Hive修改表结构 2.1 修改表的名称 2.2 表的结构信息 2.3 增加/修改/替换列信息 增加列 增加列 修改列 修改列 阅读全文
摘要:
1. Hive是什么 1.1 hive的概念 Hive:由Facebook开源,用于解决海量(结构化日志)的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将Hive SQL转化成MapReduce程序 1.2 Hive 阅读全文