Hadoop 学习笔记(一)大数据概论
一、什么是大数据?
大数据(Big Data) :在一定时间范围内无法通过常规软件进行捕捉,处理和管理的一系列数据集合,大数据主要解决的是海量数据的存储和分析计算问题。
二、大数据特点
大量 多样 高速 低价值密度
三、Hadoop 是什么?
1、Hadoop 狭义上就是 Apache Hadoop,一个顶级的分布式系统基础架构,主要用于解决海量数据的存储和分析计算问题;
2、广义上来讲:Hadoop 指更广泛的概念—— Hadoop 生态圈;
Hadoop 生态圈常用的项目:
- HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储;
- Hive™:提供数据汇总和即席查询的数据仓库基础架构;
- Spark™:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,它支持广泛的应用程序,包括ETL,机器学习,流处理和图计算;
- ZooKeeper™:分布式应用程序的高性能协调服务;
- Sqoop:数据迁入迁出工具;
- Flume:日志采集工具;
四、Hadoop 发展简史
2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储;
——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题;
——BigTable 数据库:OLTP 联机事务处理 Online Transaction Processing 增删改;
OLAP 联机分析处理 Online Analysis Processing 查询;
真正的作用:提供了一种可以在超大数据集中进行实时CRUD操作的功能
2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
五、Hadoop 组成
Hadoop 2.x 版本主要有以下部分组成
MapReduce 主要用于 基于 HDFS 存储数据的分析计算;
Yarn : 用于 Hadoop 资源调度和作业间的管理;
HDFS:Haddop 分布式文件系统,解决了对海量数据的存储问题;
Common:支持其他Hadoop模块的常用工具
说明:Hadoop 1.x 和 Hadoop2.x 组成上的区别在于:Hadoop2.x 增加了组件 Yarn 用户资源调度,而在 Haddop1.X中 Map reduce 负责资源调度和分析计算两项工作;
六、Hadoop 发展前景
党的十八大提出 “实施国家大数据战略”,当前正处于大数据行业发展的黄金期;
党的十九大提出 "推动互联网,大数据,人工智能和实体经济深度融合发展";
国内二线及以上城市推出智慧城市建设,而智慧城市的根基就是大数据综合治理平台;
国内相对于 Java 方向从业者来说,大数据从业者缺口较大;
七、Hadoop 从业要求
- Hadoop 分布式集群的平台搭建;
- Hadoop 分布式文件系统HDFS的原理理解及使用;
- Hadoop 分布式运算框架MAPREDUCE的原理理解及编程;
- Hive 数据仓库工具的熟练应用;
- Flume、sqoop、oozie等辅助工具的熟练使用;
- Shell/python等脚本语言的开发能力;
- Oracle/Mysql 数据库的使用,熟练的 SQL 功底;