摘要: 一、用途 边数据是作业所需的额外的只读数据,通常用来辅助主数据集; 二、方法 1、利用Configuration类来配置,利用setter()和getter()可方便的使用,方便存储一些基本的类型; 2、分布式缓存: 相比这下,分布式缓存更灵活,它能在任务运行过程中及时地将文件和存档复制到任务节点以 阅读全文
posted @ 2017-06-28 19:38 mzzcy 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 一、Map端Join 可连接两个都非常大的数据集之间可使用map端连接,数据在到达map端之前就执行连接操作。 需满足: 两个要连接的数据集都先划分成相同数量的分区,相同的key要保证在同一分区中(每个分区中两个数据集数据量不一定要要相同), 并且要 按连接key排序; 利用CompositeInp 阅读全文
posted @ 2017-06-28 17:20 mzzcy 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 一、目的 a. 减小磁盘占用 b. 加速网络IO 二、几个常用压缩算法 是否可切分:是指压缩后的文件能否支持在任意位置往后读取数据。 各种压缩格式特点: 压缩算法都需要权衡 空间/时间 ;压缩率越高,就需要更多的压缩解压缩时间;压缩时有9个级别来控制:1为优化压缩速度,9为优化压缩率(如 gzip 阅读全文
posted @ 2017-06-28 10:39 mzzcy 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 1、大多小文件的劣处: a. 生成更多的map任务,额外的开销; b. 每个文件都需要守址时间; c. HDFS上namenode需要占用内存空间; 阅读全文
posted @ 2017-06-28 01:17 mzzcy 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 老版HiveClient: 要求比较多,需要Hive和Hadoop的jar包,各配置环境。 HiveServer2: 使得与YARN和HDFS的连接从Client中独立出来,不需要每个Client都去配置这些连接信息。 使用Beeline只作为输入口,最终会把语句扔到HiveServer2端来作解析 阅读全文
posted @ 2017-06-28 01:13 mzzcy 阅读(4840) 评论(0) 推荐(0) 编辑
摘要: metastore:实际保存表信息的地方。 包括: 数据库,表的基本信息;权限信息;存储格式信息; 各种属性信息; 权限信息; 分区,列信息; metastore server:metastaore的入口,使用Thrift协议可以当作通用的一个接口,支持多种语言。 metasotre databas 阅读全文
posted @ 2017-06-28 01:09 mzzcy 阅读(581) 评论(0) 推荐(0) 编辑
摘要: 特点:Hive是构建在hadoop之上的数据仓库。数据存储在hdfs上,数据计算用的mapreduce框架。用户无需掌握MR的编写,通过类SQL语句即可自动生成查询计划。 主要内容: 接入入口 Client CLI Beeline HiveServer2 metastore metasotre se 阅读全文
posted @ 2017-06-28 00:56 mzzcy 阅读(1206) 评论(0) 推荐(0) 编辑
摘要: 一、事务: 事务(Transaction),一般是指要做的或所做的事情。在计算机术语中是指访问并可能更新数据库中各种数据项的一个程序执行单元(unit)。在计算机术语中,事务通常就是指数据库事务。 二、事务的四个基本特性ADID: 1、原子性: 事务必须是原子工作单元;对于其数据修改,要么全都执行, 阅读全文
posted @ 2017-06-28 00:54 mzzcy 阅读(225) 评论(0) 推荐(0) 编辑