随笔分类 - Hadoop
摘要:[TOC] 一、概念介绍 1、CDH 概览 CDH是Apache Hadoop和相关项目的最完整、最受测试和最流行的发行版。CDH提供Hadoop的核心元素 可伸缩存储和分布式计算 以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码,是唯一提供统一批处理、交互式SQL和交互
阅读全文
摘要:[TOC] 一、Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有hadoop MapReduce所具有的优点,但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算——Spar
阅读全文
摘要:[TOC] 一、Hive 简介 1、什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。 Hive 的本质是将 SQL 语句转换为 M
阅读全文
摘要:[TOC] 一、HBase是什么 HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。 HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。 它是Hadoop的生态
阅读全文
摘要:[TOC] 一、Hadoop 介绍 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 1、HDFS 介绍 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)
阅读全文
摘要:[TOC] 一、Zookeeper功能简介 ZooKeeper 是一个开源的分布式协调服务,由雅虎创建,是 Google Chubby 的开源实现。分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、配置维护,名字服
阅读全文
摘要:[TOC] 一、软硬件规划 | ID | 主机类型 | 主机名 | IP | 应用软件 | 操作系统 | 硬件配置 | | | | | | | | | | 1 | 物理机 | namenode01 | 192.168.1.200 | jdk1.8.0_171、hadoop 2.7.3、hive 2.
阅读全文