打赏

Beam概念学习系列之PTransform数据处理

 

 

  不多说,直接上干货!

 

 

 

PTransform数据处理

      PTransform对PCollection进行并行处理,每次处理1条,例如Filter过滤、Groupby分组、Combine统计、Join关联等等,还允许根据业务逻辑编写ParDo。Apache Beam借鉴了函数式编程的不可变性,PTransform不会改变原始的数据集PCollection,而是生成一个新的PCollection。看起来似乎是低效的一种做法,但是带来了容易测试、容易优化、容易并行计算的好处。

 

 

  

Beam概念学习系列之PCollection数据集

posted @ 2017-09-29 09:10  大数据和AI躺过的坑  阅读(728)  评论(0编辑  收藏  举报