2011 年 4月 15 日随笔档案 - Angels-Wing

2011年4月15日

摘要：最近，我们用hadoop做了很多批处理，然后意识到手动写mapreduce作业有多痛苦。有些工作流甚至需要多达10个作业顺序执行，才能实现我们的应用。这需要手动调整大量的中间数据和执行顺序。此外做过真正复杂的mapreduce作业的人都会感觉一直保持mapreduce的思维有多困难。幸运的是，我们发现一个很好的开源产品Cascading，这个缓解了很多问题。Cascading将mapreduce抽象为一个更自然的逻辑模型，提供了工作流管理层来控制中间数据和数据过期。Cascading的逻辑模型将mapreduce抽象为一个方便的元组，管道，丝锥模型（taps model），数据以元组的形式表示阅读全文

posted @ 2011-04-15 15:16 Angels-Wing 阅读(775) 评论(0) 推荐(0) 编辑

Angles-Wing

公告