Hive、MR 一些简单笔记
Hive是数据库文件管理组件
Hive中存储的数据是以文件的形式存储,当使用Hive语法时(非常类似与SQL),Hive会呗转换成可执行的MapReduce作业,自动去执行
Hive的内容例子:
1,张三,男
2,李四,女
其中,“,”字段分割规则,在建表时定义,其他的“1”,“张三”,“男”都是字段的内容,这些所有数据都是以文件的形式存储
一个表对应着一个文件,一个数据库对应着一个文件目录
当需要对数据进行检索时,将数据变成文件然后导入到Hive的表中,使用Hive命令检索
需要注意的是:导入到Hive的表中需要在Hive的指定数据库(目录)下,这样要么成了copy,要么成了移动,先说copy,如果文件特变大,几个T甚至PB就不合理,所以只能是移动(对于是网盘系统的话,就需要修改文件的指定路径),或者是在设计初期就要将此问题考虑进来
MR只对文件文件内容做处理