2019 年 6月 27 日随笔档案 - 北漂屌丝

2019年6月27日

摘要：在逻辑上分区表与未分区表没有区别，在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中，目录名为“分区键=键值”。其中需要注意的是分区键的值不一定要基于表的某一列（字段），它可以指定任意值，只要查询的时候指定相应的分区键来查询即可。我们可以对分区进行添加、删除、重命名、清空等操作。hive中阅读全文

posted @ 2019-06-27 21:02 北漂屌丝阅读(840) 评论(0) 推荐(0) 编辑

HIVE 内部表和外部表

摘要：区别：删除内部表，删除表元数据和数据删除外部表，删除元数据，不删除数据区别：删除内部表，删除表元数据和数据删除外部表，删除元数据，不删除数据删除内部表，删除表元数据和数据删除外部表，删除元数据，不删除数据选择：如果数据的所有处理都在 Hive 中进行，那么倾向于选择内部表如果 Hive 和其他阅读全文

posted @ 2019-06-27 20:57 北漂屌丝阅读(876) 评论(0) 推荐(0) 编辑

Hive的数据组织

摘要： 1、Hive的数据组织包括数据库、表、视图、分区、分桶和表数据等。数据库，表，分区等等都对应 HDFS上的一个目录。分桶和表数据对应 HDFS 对应目录下的文件。 2、Hive 中所有的数据都存储在 HDFS 中，没有专门的数据存储格式，因为 Hive 是读模式（Schema On Read），可阅读全文

posted @ 2019-06-27 20:52 北漂屌丝阅读(430) 评论(0) 推荐(0) 编辑

HIVE架构

摘要：注：阅读全文

posted @ 2019-06-27 20:39 北漂屌丝阅读(158) 评论(0) 推荐(0) 编辑

hive

摘要： 1、基于 Hadoop 的一个数据仓库工具 2、可以将结构化的数据映射为一张数据库表 3、提供 HQL(Hive SQL)查询功能 4、底层数据是存储在 HDFS 上 5、本质是将 SQL 语句转换为 MapReduce 任务运行 6、使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和阅读全文

posted @ 2019-06-27 17:53 北漂屌丝阅读(124) 评论(0) 推荐(0) 编辑

数据仓库定义

摘要：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。阅读全文

posted @ 2019-06-27 14:56 北漂屌丝阅读(259) 评论(0) 推荐(0) 编辑

beipiaodiaosi