2012年8月12日

Hadoop:The Definitive Guid 总结 Chapter 8 MapReduce的特性

摘要: 1.计数器计数器是一种收集Job统计的有效手段,用于质量控制或应用级统计。计数器的应用使得获取统计数据比使用日志文件获取数据更加容易。1).内置计数器Hadoop的内置计数器用来描述Job的各项指标,例如已处理的字节数和记录数,输入数据量和输出数据量。内置计数器被分为几类(group):实际上每类都包含Task计数器和Job计数器A.Task计数器Task计数器用来收集整个执行过程中Task所生成的信息,这些结果的通过Job里面所有Task聚集(aggregate)统计出来,例如:MAP_INPUT_RECORDS是用来统计所有map读入的记录数目,Take计数器功能同样也被Task Atte 阅读全文

posted @ 2012-08-12 20:30 as_ 阅读(2616) 评论(0) 推荐(1) 编辑

Hadoop:The Definitive Guid 总结 Chapter 7 MapReduce的类型与格式

摘要: MapReduce数据处理模型非常简单:map和reduce函数的输入和输出是键/值对(key/value pair)1.MapReduce的类型Hadoop的MapReduce一般遵循如下常规格式:map(K1, V1) –> list (K2, V2)combine(K2, list(V2)) –> list(K2, V2)partition(K2, V2) –> integerreduce(K2, list(V2)) –> list(K3, V3)map:对数据进行抽去过滤数据,组织key/value对等操作.combine:为了减少reduce的输入和Hadoo 阅读全文

posted @ 2012-08-12 09:45 as_ 阅读(3889) 评论(1) 推荐(4) 编辑

导航