会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
waker_wang
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
上一页
1
2
3
4
5
下一页
2018年8月20日
hive调优
摘要:
阅读全文
posted @ 2018-08-20 14:53 waker_wang
阅读(127)
评论(0)
推荐(0)
编辑
hive...
摘要: ORDER BY和SORT BY ORDER BY用于全局排序,就是对指定的所有排序键进行全局排序,使用ORDER BY的查询语句,最后会用一个Reduce Task来完成全局排序。 SORT BY用于分区内排序,即每个Reduce任务内排序。 DISTRIBUTE BY和CLUSTER BY di
阅读全文
posted @ 2018-08-20 11:20 waker_wang
阅读(86)
评论(0)
推荐(0)
编辑
hive分区
摘要: Hive中的表分区 Hive中的表分区比较简单,就是将同一组数据放到同一个HDFS目录下,当查询中过滤条件指定了某一个分区值时候,只将该分区对应的目录作为Input,从而减少MapReduce的输入数据,提高查询效率。 创建分区表 CREATE EXTERNAL TABLE t_1 ( id INT
阅读全文
posted @ 2018-08-20 11:04 waker_wang
阅读(250)
评论(0)
推荐(0)
编辑
2018年8月19日
Hive的数据库和表
摘要: 本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。 Hive的数据库和表 先看一张草图: Hive结构 Hive结构 从图上可以看出,Hive作为一个“数据库”,在结构上积极向传统数据库看齐,也分数据库(Schem
阅读全文
posted @ 2018-08-19 22:38 waker_wang
阅读(515)
评论(0)
推荐(0)
编辑
Hive函数大全
摘要: Hive函数大全(部分) 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、
阅读全文
posted @ 2018-08-19 22:36 waker_wang
阅读(1797)
评论(0)
推荐(0)
编辑
hive基础
摘要: 1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduc
阅读全文
posted @ 2018-08-19 22:34 waker_wang
阅读(141)
评论(0)
推荐(0)
编辑
转-Spark编程指南
摘要: Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打
阅读全文
posted @ 2018-08-19 12:31 waker_wang
阅读(158)
评论(0)
推荐(0)
编辑
2018年8月18日
HDFS基础
摘要: hdfs原理,以及各个模块的作用 Hdfs文件读取 Hdfs的文件写入 Hdfs的块存储位置放置机制 Hdfs的块的流水式复制 当客户端写数据到HDFS文件中时,如上所述,数据首先被写入本地文件中,假设HDFS文件的复制因子是3,当本地文件堆积到一块大小的数据,客户端从名字节点获得一个数据节点的列表
阅读全文
posted @ 2018-08-18 22:27 waker_wang
阅读(156)
评论(0)
推荐(0)
编辑
2018年8月15日
大数据小项目之电视收视率企业项目14--总结
摘要: 这个项目用到的东西就是一些常用的hive、sqoop、mysql以及涉及到MR的编写,总体难度不大,但是中间细节太多,需要很细心才能完整的做好这个项目。 比如其中的sqoop,虽然你只要写对,一分钟就能搞定,但是有时候中间不免有点卡带,就像我,有的时候,一个东西得写好几遍,反复对比才能知道错误在哪,
阅读全文
posted @ 2018-08-15 10:12 waker_wang
阅读(210)
评论(0)
推荐(0)
编辑
大数据小项目之电视收视率企业项目13---》可视化
摘要: 安装PHPstudy 按照步骤安装,完成之后启动 打开浏览器,输入localhost,出现以下界面 可视化工具用的是 echarts 在phpstudy安装目录下的www文件夹里新建目录chart(名称自定义),然后将echarts.js移动到该目录下 新建一个以 .php为后缀名的文件 保存,然后
阅读全文
posted @ 2018-08-15 10:06 waker_wang
阅读(449)
评论(1)
推荐(0)
编辑
上一页
1
2
3
4
5
下一页
公告