Beam概念学习系列之PCollection数据集
不多说,直接上干货!
PCollection数据集
PCollection是Apache Beam中数据的不可变集合,可以是有限的数据集合也可以是无限的数据集合。
有限数据集,这种一般对应的是批处理,无限数据集数据持续不断的产生,只要系统不停止数据就持续产生下去,无法知道数据在什么时候结束,对应的是流处理。PCollection是将两种数据集统一的一种数据表达方式,PCollection还是一种分布式的数据集,其中的P表示数据集可以被并行处理。
在Apache Beam中PCollection的特点:
- 不可变性:PCollection不能被修改
- 不可随机读取:PCollection只能顺序读取,且只能读取1次。
- 时间戳:PCollection的数据,每一条都带有时间。
作者:大数据和人工智能躺过的坑
出处:http://www.cnblogs.com/zlslch/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接,否则保留追究法律责任的权利。
如果您认为这篇文章还不错或者有所收获,您可以通过右边的“打赏”功能 打赏我一杯咖啡【物质支持】,也可以点击右下角的【好文要顶】按钮【精神支持】,因为这两种支持都是我继续写作,分享的最大动力!