摘要: 最近,我们用hadoop做了很多批处理,然后意识到手动写mapreduce作业有多痛苦。有些工作流甚至需要多达10个作业顺序执行,才能实现我们的应用。这需要手动调整大量的中间数据和执行顺序。此外做过真正复杂的mapreduce作业的人都会感觉一直保持mapreduce的思维有多困难。幸运的是,我们发现一个很好的开源产品Cascading,这个缓解了很多问题。Cascading将mapreduce抽象为一个更自然的逻辑模型,提供了工作流管理层来控制中间数据和数据过期。Cascading的逻辑模型将mapreduce抽象为一个方便的元组,管道,丝锥模型(taps model),数据以元组的形式表示 阅读全文
posted @ 2011-04-15 15:16 Angels-Wing 阅读(775) 评论(0) 推荐(0) 编辑