摘要: 目的:提高函数调用的效率; 特点:编译期间 将程序中的 调用表达式 用函数体 进行替换;而对于其他的函数,都是在运行时候才被替代。 这其实就是个空间代价换时间的节省。 内联函数一般不益太长,一般都是1-5行的小函数。 阅读全文
posted @ 2017-07-02 15:50 mzzcy 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 仅作《Spark快速大数据分析》学习笔记 定义:Spark是一个用来实现 快速 而 通用 的集群计算平台;(通用的大数据处理引擎;) 改进了原Hadoop MapReduce处理模型,体现在三方面: a. 速度;(内存计算) b. 不仅支持批处理,还支持交互式查询(速度快的成果)、流式计算、机器学习 阅读全文
posted @ 2017-07-02 15:04 mzzcy 阅读(237) 评论(0) 推荐(0) 编辑
摘要: hive严格模式 Hive中Order by和Sort by的区别是什么? hive中order by,sort by, distribute by, cluster by作用以及用法 Hadoop Hive概念学习系列之hive里的索引(十三) Hive 基础之:分区、桶、Sort Merge B 阅读全文
posted @ 2017-06-30 01:54 mzzcy 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 二叉树:二叉树是每个节点最多有两个子树的树结构。 满二叉树:一棵深度为K且有2^k-1个结点的二叉树称为满二叉树。 完全二叉树:每个结点与其对应深度的满二叉树一一对应。 二叉排序树:或者是一棵空树,或者是具有下列性质的二叉树: A. 左子树若不为空,则左子树上所有节点的值均小于它的根结点值; B. 阅读全文
posted @ 2017-06-30 00:02 mzzcy 阅读(441) 评论(0) 推荐(0) 编辑
摘要: SQL三部分:data manipulation language DCL: (控制)管理用户权限(GRANT、REVOKE),数据库整体配置 DDL: (定义)作用于数据库,表,视图(CREATE、DROP、ALTER) DML: (操作)作用于表中数据,增、删、改、查(INSERT、DELETE 阅读全文
posted @ 2017-06-29 21:20 mzzcy 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 一、用途 边数据是作业所需的额外的只读数据,通常用来辅助主数据集; 二、方法 1、利用Configuration类来配置,利用setter()和getter()可方便的使用,方便存储一些基本的类型; 2、分布式缓存: 相比这下,分布式缓存更灵活,它能在任务运行过程中及时地将文件和存档复制到任务节点以 阅读全文
posted @ 2017-06-28 19:38 mzzcy 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 一、Map端Join 可连接两个都非常大的数据集之间可使用map端连接,数据在到达map端之前就执行连接操作。 需满足: 两个要连接的数据集都先划分成相同数量的分区,相同的key要保证在同一分区中(每个分区中两个数据集数据量不一定要要相同), 并且要 按连接key排序; 利用CompositeInp 阅读全文
posted @ 2017-06-28 17:20 mzzcy 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 一、目的 a. 减小磁盘占用 b. 加速网络IO 二、几个常用压缩算法 是否可切分:是指压缩后的文件能否支持在任意位置往后读取数据。 各种压缩格式特点: 压缩算法都需要权衡 空间/时间 ;压缩率越高,就需要更多的压缩解压缩时间;压缩时有9个级别来控制:1为优化压缩速度,9为优化压缩率(如 gzip 阅读全文
posted @ 2017-06-28 10:39 mzzcy 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 1、大多小文件的劣处: a. 生成更多的map任务,额外的开销; b. 每个文件都需要守址时间; c. HDFS上namenode需要占用内存空间; 阅读全文
posted @ 2017-06-28 01:17 mzzcy 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 老版HiveClient: 要求比较多,需要Hive和Hadoop的jar包,各配置环境。 HiveServer2: 使得与YARN和HDFS的连接从Client中独立出来,不需要每个Client都去配置这些连接信息。 使用Beeline只作为输入口,最终会把语句扔到HiveServer2端来作解析 阅读全文
posted @ 2017-06-28 01:13 mzzcy 阅读(4840) 评论(0) 推荐(0) 编辑