摘要: Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 当时Twitter的日增数据量达到压缩之后的100TB+,存储在HD 阅读全文
posted @ 2018-04-17 17:38 可可的私房菜 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 普Spark,Spark是什么,如何使用Spark(1)转自:http://www.aboutyun.com/thread-6849-1-1.html 阅读本文章可以带着下面问题:1.Spark基于什么算法的分布式计算(很简单)2.Spark与MapReduce不同在什么地方3.Spark为什么比H 阅读全文
posted @ 2018-04-17 17:22 可可的私房菜 阅读(253) 评论(0) 推荐(0) 编辑
摘要: Hive – Distinct 的实现:http://ju.outofmemory.cn/entry/784 Hive – Group By 的实现:http://ju.outofmemory.cn/entry/785 Hive – JOIN实现过程:http://ju.outofmemory.cn 阅读全文
posted @ 2018-04-17 16:51 可可的私房菜 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。 一个Hive查询生成多个Map 阅读全文
posted @ 2018-04-17 16:00 可可的私房菜 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapRedu 阅读全文
posted @ 2018-04-17 15:10 可可的私房菜 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 转自http://superlxw1234.iteye.com/blog/1582880 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为12 阅读全文
posted @ 2018-04-17 15:04 可可的私房菜 阅读(2693) 评论(1) 推荐(0) 编辑
摘要: 当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开 阅读全文
posted @ 2018-04-17 10:10 可可的私房菜 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 整个处理流程包括主要包括,语法解析(抽象语法树,AST,采用antlr),语义分析(sematic Analyzer生成查询块),逻辑计划生成(OP tree),逻辑计划优化,物理计划生成(Task tree),以及物理计划执行组成。 下面这张图(不知道是谁画的)简要的说明了整个处理的流程 这里重点 阅读全文
posted @ 2018-04-17 10:05 可可的私房菜 阅读(788) 评论(0) 推荐(0) 编辑
摘要: hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。此篇内容较多:看完之后需要达到的目标1.hive是什么2.明白hive的原理3.会使用hive4.会使用hive编程1.hive首先我们需要hive是什 阅读全文
posted @ 2018-04-17 09:43 可可的私房菜 阅读(118) 评论(0) 推荐(0) 编辑
摘要: HBase是什么 HBase构建在 HDFS 之上的分布式列式键值存储系统。HBase内部管理的文件全部存储在HDFS中。 HBase VS HDFS HDFS适合批处理场景 不支持数据随机查找 不适合增量数据处理 不支持数据更新 HBase VS RDBMS 范式化和反范式化事务(单行:多行ACI 阅读全文
posted @ 2018-04-17 09:38 可可的私房菜 阅读(1928) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/yczws1/article/details/19178265。 纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、 阅读全文
posted @ 2018-04-17 09:28 可可的私房菜 阅读(246) 评论(0) 推荐(0) 编辑
摘要: Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学 阅读全文
posted @ 2018-04-17 09:13 可可的私房菜 阅读(401) 评论(0) 推荐(0) 编辑