文章分类 -  big data

摘要:一、OLTP与OLAP的介绍 数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例 阅读全文
posted @ 2017-09-07 15:18 茅坤宝骏氹 阅读(107) 评论(0) 推荐(0)
摘要:一、数据库与数据仓库 数据库:英文名为Database,是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变 阅读全文
posted @ 2017-08-28 22:06 茅坤宝骏氹 阅读(144) 评论(0) 推荐(0)
摘要:Hive是一个基于Hadoop的数据仓库,最初由Facebook提供,使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层,设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据,2008年facebook把Hive项目贡献给Apache。Hive提供了比较完整 阅读全文
posted @ 2017-08-17 20:31 茅坤宝骏氹 阅读(246) 评论(0) 推荐(0)
摘要:一、了解 inputSplit 代表传给一个单独mapper任务的数据。inputsplit是一个抽象类,定义了如下方法: getLength:得到每个inputsplit有多少个bytes 。 getLocations:获取inputsplit的主机名。 FileInputFormat计算Inpu 阅读全文
posted @ 2017-08-15 19:42 茅坤宝骏氹 阅读(259) 评论(0) 推荐(0)
摘要:一、MapReduce的简介 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。 Mapreduce工作机制涉及4个独立的实体: 1、客户端(cl 阅读全文
posted @ 2017-08-14 21:23 茅坤宝骏氹 阅读(123) 评论(0) 推荐(0)
摘要:一、简介MapReduce架构 Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。 学习的就是这个计算模型的运行规则。在运行 阅读全文
posted @ 2017-08-14 21:11 茅坤宝骏氹 阅读(117) 评论(0) 推荐(0)
摘要:一、SequenceFile简介 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。 目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文 阅读全文
posted @ 2017-08-11 10:51 茅坤宝骏氹 阅读(278) 评论(0) 推荐(0)
摘要:一、简介hdfs架构 一个HDFS 文件系统包括一个主控节点NameNode 和一组DataNode 从节点。 (1)NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件访问请求。 NameNode 保存了文件系统的三种元数据: 1) 命名空间, 即整个分布 阅读全文
posted @ 2017-08-10 19:25 茅坤宝骏氹 阅读(167) 评论(0) 推荐(0)
摘要:一、 HDFS框架简述 图1 HDFS框架图 HDFS设计目标 1. 容错性 2. 流式数据访问 3. 大规模数据集 4. 简单的一致性模型 5. 移动计算到数据附近 6. 可移植性 二、 HDFS分解简述 NameNode / DataNode HDFS采用Master/Slave架构,HDFS集 阅读全文
posted @ 2017-08-10 18:54 茅坤宝骏氹 阅读(152) 评论(0) 推荐(0)
摘要:一、什么是大数据,4V? 大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety 阅读全文
posted @ 2017-08-07 19:29 茅坤宝骏氹 阅读(389) 评论(0) 推荐(0)