hadoop大事件

大事件:

 Hadoop新一代(2.x)计算平台YARN

  一代hadoop存在的问题:

    1.Jobtracker单点,容易导致崩溃,节点较多时造成性能瓶颈

    2.作业分配基于槽位(slot),分配粒度太粗

    3.Jobtracker和Tasktracker多次来回斱能启动作业,导致小作业不能及时完成

           4.计算框架单一,Map-Reduce擅长日志分析,但即有大量的机器学习算法需要反复循环迭代,还有像图计算,可能涉及数据不多,但即要在内存产生大量中间数据和超大计算量,这些都不适合使用M-R框架,但Hadoop 1.x即无法支持流式数据库,基于内存的计算这些框架

       新一代(2.x)引入平台YARN

           1. Yet Another Resource Negotiator

  

           2. Hadoop 0.23开始引入

           3.  学习Mesos

           4. 弹性平台,可以同时支持Map-Reduce,Storm(流式数据处理,是先算后存,而mapreduece是先存后算即离线处理)Spark(基于内存),MPI(Message Passing Interface,是一个并行函数库标准,是应用程序对消息传递的需求,MPICH2是MPI的开源实现)等多种流行计算模型


 新一代快速计算平台Spark及其生态圈


 Mahout告别Map-Reduce

2014.4.25 告别了mapreduce,走向了spark
 阿里巳巳抛弃于梯(Hadoop集群)

posted @ 2015-04-20 10:40  孟想阳光  阅读(169)  评论(0编辑  收藏  举报