1.初识Hadoop
一.大数据初探
-
”大数据“就是收集各种数据,经过分析后再来做有意义的是,其中包括对数据进行采集、管理、存储、搜索、共享、分析和可视化。
1.大数据技术概念
-
发现大规模数据中的规律,通过对数据的分析实现对运营层决策的支持
2.大数据技术框架
-
6个部分:数据收集、数据存储、资源管理、计算框架、数据分析和数据展示
3.大数据的特点
-
”4v“:volume、variety、velocity和value
-
海量性(volume)
-
多样性(variety)
-
高速性(velocity)
-
价值性(value)
-
4.大数据计算模型
-
4类大数据计算模型
-
批处理:离线计算,如 MapReduce
-
流计算:流数据的实时计算,如 Storm,IBM InfoSphere Streams
-
图计算:大规模图结构数据的处理,常用于社交网络,如 Pregel
-
查询分析计算:大规模数据的存储管理和查询分析,如Hive
-
5.大数据与云计算、物联网的关系
(1)云计算概念:
-
云计算是一种按使用量付费的模式,这种模式提供可用可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务)。
(2)云计算特点:
-
超大规模、通用性、高扩展性、虚拟化、高可靠性、按需服务、极其廉价、具有潜在危险性
(3)云计算的模式:公有云、私有云、混合云
(4)云计算服务分类:Saas、Paas和Iaas
(5)大数据、云计算和物联网三者关系
-
物联网:提供数据
-
大数据:提供分析
-
云计算:提供技术
二.Hadoop
1.Hadoop简介
-
Hadoop是Apache开源软件基金会开发的运行在大规模普通服务器上,用于大数据存储、据算、分析的分布式存储系统和分布式运行框架
2.Hadoop两大核心
-
HDFS:分布式存储系统,用于保存海量数据,具有高可靠性、高扩展性和高吞吐率的特点。
-
MapReduce:分布式计算框架,用于海量数据计算,具有易于编程、高容错和高扩展的特点。
3.Hadoop生态系统