可可的私房菜

2018年4月17日

摘要：摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化，针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map 阅读全文

posted @ 2018-04-17 16:00 可可的私房菜阅读(346) 评论(0) 推荐(0) 编辑

hive介绍

摘要：我最近研究了hive的相关技术，有点心得，这里和大家分享下。首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性： 1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapRedu 阅读全文

posted @ 2018-04-17 15:10 可可的私房菜阅读(254) 评论(0) 推荐(0) 编辑

Hive性能优化--map数和reduce数

摘要：转自http://superlxw1234.iteye.com/blog/1582880 一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为12 阅读全文

posted @ 2018-04-17 15:04 可可的私房菜阅读(2693) 评论(1) 推荐(0) 编辑

Storm实现实时大数据分析

摘要：当今世界，公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量，实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开阅读全文

posted @ 2018-04-17 10:10 可可的私房菜阅读(307) 评论(0) 推荐(0) 编辑

hive架构原理简析-mapreduce部分

摘要：整个处理流程包括主要包括，语法解析（抽象语法树，AST,采用antlr），语义分析(sematic Analyzer生成查询块)，逻辑计划生成（OP tree），逻辑计划优化,物理计划生成（Task tree），以及物理计划执行组成。下面这张图（不知道是谁画的）简要的说明了整个处理的流程这里重点阅读全文

posted @ 2018-04-17 10:05 可可的私房菜阅读(788) 评论(0) 推荐(0) 编辑

hive入门学习线路指导

摘要： hive被大多数企业使用，学习它，利于自己掌握企业所使用的技术，这里从安装使用到概念、原理及如何使用遇到的问题，来讲解hive，希望对大家有所帮助。此篇内容较多：看完之后需要达到的目标1.hive是什么2.明白hive的原理3.会使用hive4.会使用hive编程1.hive首先我们需要hive是什阅读全文

posted @ 2018-04-17 09:43 可可的私房菜阅读(118) 评论(0) 推荐(0) 编辑

HBase基本概念

摘要： HBase是什么 HBase构建在 HDFS 之上的分布式列式键值存储系统。HBase内部管理的文件全部存储在HDFS中。 HBase VS HDFS HDFS适合批处理场景不支持数据随机查找不适合增量数据处理不支持数据更新 HBase VS RDBMS 范式化和反范式化事务(单行：多行ACI 阅读全文

posted @ 2018-04-17 09:38 可可的私房菜阅读(1928) 评论(0) 推荐(0) 编辑

Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

摘要：转自：http://blog.csdn.net/yczws1/article/details/19178265。纯干货：Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、阅读全文

posted @ 2018-04-17 09:28 可可的私房菜阅读(246) 评论(0) 推荐(0) 编辑

Hadoop 新 MapReduce 框架 Yarn 详解

摘要： Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考 Hadoop 官方简介。使用和学阅读全文

posted @ 2018-04-17 09:13 可可的私房菜阅读(401) 评论(0) 推荐(0) 编辑

2018年4月16日

OLAP架构设计

摘要：一. 功能综述 OLAP引擎为存储和计算二合一的引擎，自身内部涵盖了对数据的管理以及提供查询能力。底层数据完全规划在引擎内部，外部系统不允许直接操作底层数据，而是需要通过暴露出来的接口来读写引擎内部数据。目前整体来说OLAP功能由两部分组成：数据管理，查询引擎。 1.1 数据管理引擎中数据核心概阅读全文

posted @ 2018-04-16 15:04 可可的私房菜阅读(3862) 评论(0) 推荐(0) 编辑

背着吉他的王小可

公告