2013 年 9月 15 日随笔档案 - BruceLv

2013年9月15日

hadoop拾遗（三）---- 多种输入

摘要：虽然一个MapReduce作业的输入可能包含多个输入文件（由文件glob、过滤器和路径组成），但所有文件都由同一个InputFormat和同一个Mapper来解释。然而，数据格式往往会随时间而演变，所以必须写自己的mapper来处理应用中的遗留数据格式。或，有些数据源会提供相同的数据，但是格式不同。对不同的数据集进行连接（jion,也称“联接”）操作时，便会产生这样的问题。例如，有些数据可能是作用制表符分隔的文本文件，另一些文件可能是二进制的顺序文件。即使它们格式相同，它们的表示也可能不同，因此需要分别进行解析。这些问题可以用 MultipleInputs 类来妥善处理，它允许为每条输... 阅读全文

posted @ 2013-09-15 17:52 BruceLv 阅读(480) 评论(0) 推荐(0) 编辑

吕秀才

hadoop拾遗（三）---- 多种输入

导航

公告