摘要:
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。 一个Hive查询生成多个Map 阅读全文
摘要:
我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapRedu 阅读全文
摘要:
转自http://superlxw1234.iteye.com/blog/1582880 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为12 阅读全文
摘要:
当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开 阅读全文
摘要:
整个处理流程包括主要包括,语法解析(抽象语法树,AST,采用antlr),语义分析(sematic Analyzer生成查询块),逻辑计划生成(OP tree),逻辑计划优化,物理计划生成(Task tree),以及物理计划执行组成。 下面这张图(不知道是谁画的)简要的说明了整个处理的流程 这里重点 阅读全文
摘要:
hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。此篇内容较多:看完之后需要达到的目标1.hive是什么2.明白hive的原理3.会使用hive4.会使用hive编程1.hive首先我们需要hive是什 阅读全文
摘要:
HBase是什么 HBase构建在 HDFS 之上的分布式列式键值存储系统。HBase内部管理的文件全部存储在HDFS中。 HBase VS HDFS HDFS适合批处理场景 不支持数据随机查找 不适合增量数据处理 不支持数据更新 HBase VS RDBMS 范式化和反范式化事务(单行:多行ACI 阅读全文
摘要:
转自:http://blog.csdn.net/yczws1/article/details/19178265。 纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、 阅读全文
摘要:
Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学 阅读全文