Hive、MR 一些简单笔记

Hive是数据库文件管理组件

Hive中存储的数据是以文件的形式存储,当使用Hive语法时(非常类似与SQL),Hive会呗转换成可执行的MapReduce作业,自动去执行

 

Hive的内容例子:

  1,张三,男

  2,李四,女

其中,“,”字段分割规则,在建表时定义,其他的“1”,“张三”,“男”都是字段的内容,这些所有数据都是以文件的形式存储

 一个表对应着一个文件,一个数据库对应着一个文件目录

当需要对数据进行检索时,将数据变成文件然后导入到Hive的表中,使用Hive命令检索

 

需要注意的是:导入到Hive的表中需要在Hive的指定数据库(目录)下,这样要么成了copy,要么成了移动,先说copy,如果文件特变大,几个T甚至PB就不合理,所以只能是移动(对于是网盘系统的话,就需要修改文件的指定路径),或者是在设计初期就要将此问题考虑进来

MR只对文件文件内容做处理

posted @ 2018-03-02 18:10  猴子1  阅读(237)  评论(0编辑  收藏  举报