2013年8月9日

Pig性能优化

摘要: 1. 尽早去除无用的数据 MapReduce Job的很大一部分开销在于磁盘IO和数据的网络传输,如果能尽早的去除无用的数据,减少数据量,会提升Pig的性能。 1). 尽早的使用Filter 使用Filter可以去除数据中无用的行(Record),尽早的Filter掉无用的数据,可以减少数据量,提升Pig性能。 2). 尽早的使用Project(Foreach Generate) 使用Foreach Generate可以去除数据中无用的列(Column),减少数据量,提升Pig性能。 2. 使用Combiner Combiner可以对Map的结果进行combine,减少Shuffle的数据量. 阅读全文

posted @ 2013-08-09 20:37 潘的博客 阅读(2754) 评论(0) 推荐(2) 编辑

导航