上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 21 下一页
摘要: 当数据量很大时,需要查找一个数据的子集用于加快数据的分析,这种技术就是抽样技术。Hive中,数据抽样分为以下三种:随机抽样;桶表抽样;块抽样;1 随机抽样1)语法结构使用Rand()和LIMIT关键字得到抽样数据... 阅读全文
posted @ 2018-07-10 16:54 追梦男生 阅读(949) 评论(0) 推荐(0) 编辑
摘要: 本篇承接【Hive】HiveQL实战之分析函数&窗口函数并对其进行补充。一 语法结构分析函数的使用常和Over、Partition By、Order By 和窗口说明一起,具体语法如下:Function (arg... 阅读全文
posted @ 2018-07-10 12:51 追梦男生 阅读(463) 评论(0) 推荐(0) 编辑
摘要: Hive中的操作符合函数,和关系型数据库的类似,本篇主要讲解Hive的一些函数。一 函数分类Hive中的函数可以分为以下几种:数学函数:主要用于数学运算,例如:Randy()和E();集合函数:主要用于查找Siz... 阅读全文
posted @ 2018-07-09 12:40 追梦男生 阅读(248) 评论(0) 推荐(0) 编辑
摘要: Hive中的数据类型可以分为两种,分别是基本数据类型和复杂数据类型,本篇将通过一个例子来说明:1 数据样本[hadoop@strong ~]$ vim employee Michael|Montreal,Toro... 阅读全文
posted @ 2018-07-06 15:29 追梦男生 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 1 Order byHive中的Order by语句和其他的SQL中定义的一样,其会对查询结果集执行一个全局排序,即会有一个所有的数据都通过一个reducer进行处理的过程。对于大数据集,这个过程可能会消耗太多的... 阅读全文
posted @ 2018-07-04 16:56 追梦男生 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 本篇主要演示分区表的创建、插入、动态分区等内容。一 实验环境1 Hive环境0: jdbc:hive2://localhost:10000/hive> select version() ver;+--------... 阅读全文
posted @ 2018-07-02 17:30 追梦男生 阅读(380) 评论(0) 推荐(0) 编辑
摘要: Beeline,它其实是HiveServer2的JDBC客户端,基于SQLLine命令行接口。Beeline Shell可以工作在嵌入式模式和远程模式,在嵌入式模式中,它运行一个嵌入式的Hive(类似于Hive ... 阅读全文
posted @ 2018-06-29 15:49 追梦男生 阅读(591) 评论(0) 推荐(0) 编辑
摘要: $HIVE_HOME/bin/hive是一个Shell工具,可以用来以交互式或批量模式运行HIve查询,本篇对其进行学习。一 Hive环境hive> select version();OK2.3.3 r8a511... 阅读全文
posted @ 2018-06-29 11:22 追梦男生 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 本篇主要介绍将存储到Mysql的示例数据库Sakila以Sqoop的方式导入到Hive,然后详细讲解Hive的分析函数和窗口函数。一 实战环境1 Hive版本hive> select version();OK2.... 阅读全文
posted @ 2018-06-28 16:51 追梦男生 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 前面两篇主要演示了Sqoop1进行数据的导入和导出,本篇主要演示如何使用Sqoop1对导入和导出任务创建Job。1 查看Sqoop Job语法帮助[hadoop@strong ~]$ sqoop help job... 阅读全文
posted @ 2018-06-27 18:09 追梦男生 阅读(196) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 21 下一页