2.大数据生态圈

  • Hadoop 生态圈
    • Hadoop 核心组件之分布式文件系统HDFS
      • 将文件切分成指定大小的数据块(默认128M)并以多副本的存储在多个机器上
      • 数据切分,多副本,容错等操作对用户是透明的

part-0 ,r:2,{1,3} ,表示part-0文件2个副本,文件存储在 block id 1和3上面

part-1,r:3,{2,4,5} ,表示part-1 文件3个副本,文件存储在block id 2,4和5上面

    •   Hadoop 核心组件之资源调度系统YARN
      • YARN :Yet Another Resources Negotiator 
      • 负责整个集群资源的管理和调度
      • YARN特点:扩展性,容错性,多框架资源统一调度
    •   Hadoop 核心组件之分布式计算框架MapReduce
      •   源自于Google 的MapReduce 论文,论文发表于2004年12月
      • MapReduce 是Google MapReduce 的克隆版
      • MapReduce 特点:扩展性,容错性,海量数据离线处理(延时性大)
    • Hadoop 优势之高可靠性
      •   数据存储:数据块多副本
      •   数据计算:重新调度作业计算
    • Hadoop 优势之高扩展性
      •   存储/计算资源不够时,可以横向的线性扩展机器
      •   一个集群中可以包含数以千计的节点
    • Hadoop优势之其他
      •   存储在廉价机器上,降低成本
      •   成熟的生态圈
    • 狭义Hadoop VS 广义Hadoop
      •   狭义的Hadoop:是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)和资源调度(YRAN)的平台
      •   广义的Hadoop:指的是Hadoop 生态系统,Hadoop 生态系统是一个很庞大的概念,hadoop 是其中最重要最基础的一个部分,生态系统中的每个子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的一个全能系统,而是小而精的多个小系统
    • Hadoop生态系统
      •   Sqoop (Data exchange),关系型数据到Hadoop平台数据的转换器

      •        Flume (Log Collector) ,日志收集工具

      •   Zookeeper ,分布式调度

      •   Hbase 可以理解就是Hadoop的一个大型数据库

      •   生态系统的特点

        •   开源,社区活跃

        •   囊括了大数据处理的方方面面

        •   成熟的生态圈

     

CDH 是商业的版本,稳定(浏览器下一步的方式,可以直接安装完成)
HDP 是开源的,版本与Apache Hadoop的版本一致的,安装升级以及添加节点麻烦费劲
Apache Hadoop 是一个开源的版本,在使用中会出现组件或包冲突(linux命令安装)
    •   Hadoop 企业应用案例之消费大数据
    •  

  • Spark 生态圈

 

posted @ 2019-01-13 11:51  kevin06  阅读(116)  评论(0编辑  收藏  举报