hyunbar

2019年10月25日

摘要： EOF自定义终止符用法我们在脚本中经常会发现使用EOF的情况。EOF可以结合cat命令对内容进行追加。比如：执行脚本的时候，需要往一个文件里自动输入多行内容。如果是少数的几行内容，可以用echo命令追加，但如果是很多行，那么单纯用echo追加的方式就不太适合了。 1.语法格式：文件内容阅读全文

posted @ 2019-10-25 19:12 hyunbar 阅读(346) 评论(0) 推荐(0) 编辑

2019年10月24日

hive DML操作

摘要： 1、数据导入 1）向表中装载数据（load）语法（1）load data:表示加载数据（2）local:表示从本地加载数据到hive表；否则从HDFS加载数据到hive表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into ta 阅读全文

posted @ 2019-10-24 15:02 hyunbar 阅读(363) 评论(0) 推荐(0) 编辑

hive Hbase sql

摘要： Hive和HBase的区别 hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，H 阅读全文

posted @ 2019-10-24 11:26 hyunbar 阅读(851) 评论(0) 推荐(0) 编辑

hive DDL操作

摘要： 1、创建数据库（1）创建一个数据库，数据库在hdfs上的默认存储路径是/user/hive/warehouse/ .db （2）避免要创建的数据库已经存在错误，增加if not exists判断。（标准写法）（3）创建一个数据库，指定数据库在HDFS上存放的位置 2、显示数据库（1）显示数据库阅读全文

posted @ 2019-10-24 10:02 hyunbar 阅读(382) 评论(0) 推荐(0) 编辑

2019年10月23日

hive 分桶及抽样调查

摘要： 1、分桶的概述分区提供了一个隔离数据和优化查询的遍历方式。不是所有的数据集都可形成合力的分区对于一张表或者分区，hive可以进一步组织成桶，也就是更为细粒度的数据范围 2、创建分桶表，数据通过子查询的方式导入（1）创建一个普通表（2）向普通表中导入数据（3）创建分桶表（3）通过子查阅读全文

posted @ 2019-10-23 20:26 hyunbar 阅读(822) 评论(0) 推荐(0) 编辑

hive 排序

摘要： 1、全局排序（order by） ASC（ascend ）：升序（默认） DESC（descend）：降序 2、每个MR内部排序（sort by） sort By：对于大规模的数据集order by的效率非常低。在很多情况下，并不需要全局排序，此时可以使用sort by Sort By为每个Red 阅读全文

posted @ 2019-10-23 20:14 hyunbar 阅读(2365) 评论(0) 推荐(0) 编辑

2019年10月18日

hive环境

摘要：一、hive安装部署 1、hive安装及配置（1）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面（2）修改apache-hive-1.2.1-bin.tar.gz的名称为hive （3）修改/opt/module/hive/conf目录下的hive 阅读全文

posted @ 2019-10-18 21:28 hyunbar 阅读(315) 评论(0) 推荐(0) 编辑

Hive基础

摘要：一、什么是hive （1）Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。（2）Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。（3）本质是：将HQL转化成MapReduce程序（4）Hive处理的数据存储在HDF 阅读全文

posted @ 2019-10-18 20:45 hyunbar 阅读(140) 评论(0) 推荐(0) 编辑

2019年10月17日

MapTask工作机制

摘要：一、MapTask并行度决定机制二、MapTask的工作机制（1）Read阶段： Map Task通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产阅读全文

posted @ 2019-10-17 16:01 hyunbar 阅读(846) 评论(0) 推荐(0) 编辑

HDFS-Suffle

摘要：一、Shuffle机制 1、官网图 2、MR确保每个Reducer的输入都是按照key排序的。系统执行排序的过程（即将Mapper输出作为输入传给Reducer）成为Shuffle 二、Partition分区 1、默认分区HashPartitioner 默认分区是根据key的hashcode对Red 阅读全文

posted @ 2019-10-17 10:31 hyunbar 阅读(183) 评论(0) 推荐(1) 编辑

公告