博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

数据基础(笔记一)

一、大数据两大核心技术

  1. 分布式存储:解决海量数据的存储问题。
  2. 分布式处理:解决海量数据的处理问题。
  • 分布式数据库:BigTable
  • 分布式文件系统:GFS
  • 分布式并行处理技术:MapReduce

二、大数据计算模式

  1. 批处理
  2. 实时计算
  3. 交互式计算
  • 批处理计算:MapReduce是批处理计算模式的典型代表,但MapReduce无法进行高效的迭代计算,spark可以。
  • 流计算:storm/S4/Flume/Streams/Puma/DStream/SuperMario/银河流处理平台等。
  • 图计算:Google Pregel/Giraph/PowerGraph/Hama/GoldenOrb等。
  • 查询分布计算:Google Dremel/Hive/Cassandra/Impala等。

三、云计算典型特征

  1. 虚拟化
  2. 多租户

四、云计算服务

  1. IaaS(面向网络架构师):基础设施即服务。
  2. PaaS(面向应用开发者):平台即服务。
  3. SaaS(面向用户):软件即服务。

五、物联网关键技术

  1. 识别技术
  2. 感知技术

六、Hadoop项目两大核心

  1. 分布式核心系统→HDFS
  2. MapReduce:分布式并行编程框架

七、Hadoop版本

  1. 1.0版本:0.20x,0.21x,0.22x
  2. 2.0版本:0.23x,2.x

备注:2.0版本对MapReduce进行分解,将资源调度框架单独抽出来整合成YARN框架,MapReduce只负责进行数据处理。

 

 

 

posted @ 2021-09-09 11:08  疯狂打码  阅读(114)  评论(0编辑  收藏  举报