摘要:
EOF自定义终止符用法 我们在脚本中经常会发现使用EOF的情况。EOF可以结合cat命令对内容进行追加。比如:执行脚本的时候,需要往一个文件里自动输入多行内容。如果是少数的几行内容,可以用echo命令追加,但如果是很多行,那么单纯用echo追加的方式就不太适合了。 1.语法格式: 文件内容 阅读全文
摘要:
1、数据导入 1)向表中装载数据(load) 语法 (1)load data:表示加载数据 (2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表 (3)inpath:表示加载数据的路径 (4)overwrite:表示覆盖表中已有数据,否则表示追加 (5)into ta 阅读全文
摘要:
Hive和HBase的区别 hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,H 阅读全文
摘要:
1、创建数据库 (1)创建一个数据库,数据库在hdfs上的默认存储路径是/user/hive/warehouse/ .db (2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) (3)创建一个数据库,指定数据库在HDFS上存放的位置 2、显示数据库 (1)显示数据库 阅读全文
摘要:
1、分桶的概述 分区提供了一个隔离数据和优化查询的遍历方式。不是所有的数据集都可形成合力的分区 对于一张表或者分区,hive可以进一步组织成桶,也就是更为 细粒度 的数据范围 2、创建分桶表,数据通过子查询的方式导入 (1)创建一个普通表 (2)向普通表中导入数据 (3)创建分桶表 (3)通过 子查 阅读全文
摘要:
1、全局排序(order by) ASC(ascend ):升序(默认) DESC(descend) :降序 2、每个MR内部排序(sort by) sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by Sort By为每个Red 阅读全文
摘要:
一、hive安装部署 1、hive安装及配置 (1)解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 (2)修改apache-hive-1.2.1-bin.tar.gz的名称为hive (3)修改/opt/module/hive/conf目录下的hive 阅读全文
摘要:
一、什么是hive (1)Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 (2)Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 (3)本质是:将HQL转化成MapReduce程序 (4)Hive处理的数据存储在HDF 阅读全文
摘要:
一、MapTask并行度决定机制 二、MapTask的工作机制 (1)Read阶段: Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段: 该节点主要是将解析出的key/value交给用户编写map()函数处理,并产 阅读全文
摘要:
一、Shuffle机制 1、官网图 2、MR确保每个Reducer的输入都是按照key排序的。系统执行排序的过程(即将Mapper输出作为输入传给Reducer)成为Shuffle 二、Partition分区 1、默认分区HashPartitioner 默认分区是根据key的hashcode对Red 阅读全文