追梦男生

摘要：当数据量很大时，需要查找一个数据的子集用于加快数据的分析，这种技术就是抽样技术。Hive中，数据抽样分为以下三种：随机抽样；桶表抽样；块抽样；1 随机抽样1）语法结构使用Rand（）和LIMIT关键字得到抽样数据... 阅读全文

posted @ 2018-07-10 16:54 追梦男生阅读(949) 评论(0) 推荐(0) 编辑

摘要：本篇承接【Hive】HiveQL实战之分析函数&窗口函数并对其进行补充。一语法结构分析函数的使用常和Over、Partition By、Order By 和窗口说明一起，具体语法如下：Function (arg... 阅读全文

posted @ 2018-07-10 12:51 追梦男生阅读(463) 评论(0) 推荐(0) 编辑

摘要： Hive中的操作符合函数，和关系型数据库的类似，本篇主要讲解Hive的一些函数。一函数分类Hive中的函数可以分为以下几种：数学函数：主要用于数学运算，例如：Randy（）和E（）；集合函数：主要用于查找Siz... 阅读全文

posted @ 2018-07-09 12:40 追梦男生阅读(248) 评论(0) 推荐(0) 编辑

摘要： Hive中的数据类型可以分为两种，分别是基本数据类型和复杂数据类型，本篇将通过一个例子来说明：1 数据样本[hadoop@strong ~]$ vim employee Michael|Montreal,Toro... 阅读全文

posted @ 2018-07-06 15:29 追梦男生阅读(187) 评论(0) 推荐(0) 编辑

摘要： 1 Order byHive中的Order by语句和其他的SQL中定义的一样，其会对查询结果集执行一个全局排序，即会有一个所有的数据都通过一个reducer进行处理的过程。对于大数据集，这个过程可能会消耗太多的... 阅读全文

posted @ 2018-07-04 16:56 追梦男生阅读(121) 评论(0) 推荐(0) 编辑

摘要：本篇主要演示分区表的创建、插入、动态分区等内容。一实验环境1 Hive环境0: jdbc:hive2://localhost:10000/hive> select version() ver;+--------... 阅读全文

posted @ 2018-07-02 17:30 追梦男生阅读(380) 评论(0) 推荐(0) 编辑

摘要： Beeline，它其实是HiveServer2的JDBC客户端，基于SQLLine命令行接口。Beeline Shell可以工作在嵌入式模式和远程模式，在嵌入式模式中，它运行一个嵌入式的Hive（类似于Hive ... 阅读全文

posted @ 2018-06-29 15:49 追梦男生阅读(591) 评论(0) 推荐(0) 编辑

摘要： $HIVE_HOME/bin/hive是一个Shell工具，可以用来以交互式或批量模式运行HIve查询，本篇对其进行学习。一 Hive环境hive> select version();OK2.3.3 r8a511... 阅读全文

posted @ 2018-06-29 11:22 追梦男生阅读(172) 评论(0) 推荐(0) 编辑

摘要：本篇主要介绍将存储到Mysql的示例数据库Sakila以Sqoop的方式导入到Hive，然后详细讲解Hive的分析函数和窗口函数。一实战环境1 Hive版本hive> select version();OK2.... 阅读全文

posted @ 2018-06-28 16:51 追梦男生阅读(219) 评论(0) 推荐(0) 编辑

摘要：前面两篇主要演示了Sqoop1进行数据的导入和导出，本篇主要演示如何使用Sqoop1对导入和导出任务创建Job。1 查看Sqoop Job语法帮助[hadoop@strong ~]$ sqoop help job... 阅读全文

posted @ 2018-06-27 18:09 追梦男生阅读(196) 评论(0) 推荐(0) 编辑