hadoop大事件
大事件:
Hadoop新一代(2.x)计算平台YARN
一代hadoop存在的问题:
1.Jobtracker单点,容易导致崩溃,节点较多时造成性能瓶颈
2.作业分配基于槽位(slot),分配粒度太粗
3.Jobtracker和Tasktracker多次来回斱能启动作业,导致小作业不能及时完成
4.计算框架单一,Map-Reduce擅长日志分析,但即有大量的机器学习算法需要反复循环迭代,还有像图计算,可能涉及数据不多,但即要在内存产生大量中间数据和超大计算量,这些都不适合使用M-R框架,但Hadoop 1.x即无法支持流式数据库,基于内存的计算这些框架
新一代(2.x)引入平台YARN:
1. Yet Another Resource Negotiator
2. Hadoop 0.23开始引入
3. 学习Mesos
4. 弹性平台,可以同时支持Map-Reduce,Storm(流式数据处理,是先算后存,而mapreduece是先存后算即离线处理),Spark(基于内存),MPI(Message Passing Interface,是一个并行函数库标准,是应用程序对消息传递的需求,MPICH2是MPI的开源实现)等多种流行计算模型
新一代快速计算平台Spark及其生态圈
Mahout告别Map-Reduce
2014.4.25 告别了mapreduce,走向了spark
阿里巳巳抛弃于梯(Hadoop集群)