摘要:
概述HBase是谷歌公司BigTable的开源实现。BigTable是一个分布式存储系统,利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据,使用谷歌分布式文件系统GFS作为底层数据存储,并采用Chubby提供协同服务管理,可以扩展到PB级别的数据和上千台机器,具备广泛应用型、可扩展性、搞性能和高可用性等特点。BigTable具备以下特点:支持大规模海量数据;分布式并发数据处理... 阅读全文
摘要:
YARN(Yet Another Resource Negotiator)背景 Yarn的出现是为了解决以下问题(即MapReduce1.0的缺陷): 单点故障。 JobTracker“大包大揽”导致任务过重。 容易出现内存溢出。 资源划分不合理。 YARN的设计思路 基本思路就是“放权”,即不让 阅读全文
摘要:
简介 Hive可以快速实现简单的MapReduce统计,主要是通过自身组件把HiveQL转换成MapReduce任务来实现的。 Hive中SQL查询转换成MapReduce作业的过程 当用户向 Hive 输入一段命令或查询(即 HiveQL 语句)时,Hive 需要与 Hadoop 交互工作来完成该 阅读全文
摘要:
Hive的系统架构 Hive主要由以下三个模块组成 用户接口模块 驱动模块 元数据存储模块 系统架构 架构解析 用户接口模块 用户接口模块的组成 主要包括:CLI、HWI、JDBC、ODBC、Thrift Server等。 CLI:是Hive自带的一个命令行界面,HWI是Hive的一个简单网页界面; 阅读全文
摘要:
需求介绍 前端通过ajax调用java的接口获取到json字符串,在通过js处理获取到的json字符串将文件内容展示在页面上,同时可以对文件下载。 Java后端代码 /** * 获取文件内容 * @return */ public String getFileContent() { Map<Stri 阅读全文
摘要:
简介 What is the Quartz Job Scheduling Library? Quartz is a richly featured, open source job scheduling library that can be integrated within virtually 阅读全文
摘要:
MapReduce的shuffle过程介绍 Shuffle的语义是洗牌、混洗,即把一组有一定规则的数据尽量转换成一组无规则的数据,随机性越高越好。 MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shu 阅读全文
摘要:
结构介绍 MapReduce是Hadoop提供的一种处理海量数据的并行编程模型和计算框架,用于对大规模的数据进行并行计算。主要由ResourceManager和NodeManager两类节点构成。 ResourceManager主要负责集群资源管理,NodeManager负责节点的资源管理。 当运行 阅读全文
摘要:
大数据特征(5V) Velocity(快速的数据流转) Veracity(精准可信赖的大数据) Variety(多样的数据类型) Volume(海量的数据规模) Value(数据价值密度相对较低) 大数据架构 HDFS服务功能 NameNode NameNode是主节点,存储文件的元数据,如文件名, 阅读全文
摘要:
磁盘数据查询 df:查看文件系统的磁盘使用量 df -h -a, --all include dummy file systems -B, --block-size=SIZE scale sizes by SIZE before printing them; e.g., '-BM' prints s 阅读全文