mzzcy

2017年7月2日

摘要：目的：提高函数调用的效率；特点：编译期间将程序中的调用表达式用函数体进行替换；而对于其他的函数，都是在运行时候才被替代。这其实就是个空间代价换时间的节省。内联函数一般不益太长，一般都是1-5行的小函数。阅读全文

posted @ 2017-07-02 15:50 mzzcy 阅读(135) 评论(0) 推荐(0)

摘要：仅作《Spark快速大数据分析》学习笔记定义：Spark是一个用来实现快速而通用的集群计算平台；（通用的大数据处理引擎；）改进了原Hadoop MapReduce处理模型，体现在三方面： a. 速度；（内存计算） b. 不仅支持批处理，还支持交互式查询(速度快的成果)、流式计算、机器学习阅读全文

posted @ 2017-07-02 15:04 mzzcy 阅读(271) 评论(0) 推荐(0)

2017年6月30日

Hive中的一些点

摘要： hive严格模式 Hive中Order by和Sort by的区别是什么? hive中order by,sort by, distribute by, cluster by作用以及用法 Hadoop Hive概念学习系列之hive里的索引（十三) Hive 基础之：分区、桶、Sort Merge B 阅读全文

posted @ 2017-06-30 01:54 mzzcy 阅读(244) 评论(0) 推荐(0)

树结构

摘要：二叉树：二叉树是每个节点最多有两个子树的树结构。满二叉树：一棵深度为K且有2^k-1个结点的二叉树称为满二叉树。完全二叉树：每个结点与其对应深度的满二叉树一一对应。二叉排序树：或者是一棵空树，或者是具有下列性质的二叉树： A. 左子树若不为空，则左子树上所有节点的值均小于它的根结点值； B. 阅读全文

posted @ 2017-06-30 00:02 mzzcy 阅读(483) 评论(0) 推荐(0)

2017年6月29日

数据库DCL、DDL、DML、DQL

摘要： SQL三部分：data manipulation language DCL: （控制）管理用户权限（GRANT、REVOKE），数据库整体配置 DDL: （定义）作用于数据库，表，视图（CREATE、DROP、ALTER） DML: （操作）作用于表中数据，增、删、改、查（INSERT、DELETE 阅读全文

posted @ 2017-06-29 21:20 mzzcy 阅读(198) 评论(0) 推荐(0)

2017年6月28日

Hadoop 中的 (side data) 边数据

摘要：一、用途边数据是作业所需的额外的只读数据，通常用来辅助主数据集；二、方法 1、利用Configuration类来配置，利用setter()和getter()可方便的使用，方便存储一些基本的类型； 2、分布式缓存：相比这下，分布式缓存更灵活，它能在任务运行过程中及时地将文件和存档复制到任务节点以阅读全文

posted @ 2017-06-28 19:38 mzzcy 阅读(483) 评论(0) 推荐(0)

MapReduce Join的使用

摘要：一、Map端Join 可连接两个都非常大的数据集之间可使用map端连接，数据在到达map端之前就执行连接操作。需满足：两个要连接的数据集都先划分成相同数量的分区，相同的key要保证在同一分区中（每个分区中两个数据集数据量不一定要要相同），并且要按连接key排序；利用CompositeInp 阅读全文

posted @ 2017-06-28 17:20 mzzcy 阅读(359) 评论(0) 推荐(0)

Hadoop 文件压缩

摘要：一、目的 a. 减小磁盘占用 b. 加速网络IO 二、几个常用压缩算法是否可切分：是指压缩后的文件能否支持在任意位置往后读取数据。各种压缩格式特点：压缩算法都需要权衡空间/时间；压缩率越高，就需要更多的压缩解压缩时间；压缩时有9个级别来控制：1为优化压缩速度，9为优化压缩率（如 gzip 阅读全文

posted @ 2017-06-28 10:39 mzzcy 阅读(487) 评论(0) 推荐(0)

Hadoop一些要注意的点

摘要： 1、大多小文件的劣处： a. 生成更多的map任务，额外的开销； b. 每个文件都需要守址时间； c. HDFS上namenode需要占用内存空间；阅读全文

posted @ 2017-06-28 01:17 mzzcy 阅读(151) 评论(0) 推荐(0)

Hive两种访问方式：HiveServer2 和 Hive Client

摘要：老版HiveClient：要求比较多，需要Hive和Hadoop的jar包，各配置环境。 HiveServer2：使得与YARN和HDFS的连接从Client中独立出来，不需要每个Client都去配置这些连接信息。使用Beeline只作为输入口，最终会把语句扔到HiveServer2端来作解析阅读全文

posted @ 2017-06-28 01:13 mzzcy 阅读(5008) 评论(0) 推荐(0)

公告