打赏
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 180 下一页
摘要: 不多说,直接上干货! PTransform数据处理 PTransform对PCollection进行并行处理,每次处理1条,例如Filter过滤、Groupby分组、Combine统计、Join关联等等,还允许根据业务逻辑编写ParDo。Apache Beam借鉴了函数式编程的不可变性,PTrans 阅读全文
posted @ 2017-09-29 09:10 大数据和AI躺过的坑 阅读(728) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! PCollection数据集 PCollection是Apache Beam中数据的不可变集合,可以是有限的数据集合也可以是无限的数据集合。 有限数据集,这种一般对应的是批处理,无限数据集数据持续不断的产生,只要系统不停止数据就持续产生下去,无法知道数据在什么时候结束,对应的是 阅读全文
posted @ 2017-09-29 09:09 大数据和AI躺过的坑 阅读(853) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! Beam内置的Java数据源清单: Beam内置的Python数据源清单: 阅读全文
posted @ 2017-09-29 09:05 大数据和AI躺过的坑 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! Apache Beam抽象模型 计算机最简单的抽象模型是输入+计算+输出。对于数据处理类的应用来说,将计算的部分展开,变成了 数据输入 + 数据集 + 数据处理 + 数据输出 = 数据处理流程。 图1 数据处理流程 在Apache Beam中对应如下: IO Source/Si 阅读全文
posted @ 2017-09-29 09:03 大数据和AI躺过的坑 阅读(479) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! Apache Beam 有两大特点: 1、统一了数据批处理(batch)和流处理(stream)编程范式; 2、能在任何执行引擎上运行。 它不仅为模型设计、更为执行一系列数据导向的工作流提供了统一的模型。这些工作流包括数据处理、吸收和整合。 阅读全文
posted @ 2017-09-29 08:56 大数据和AI躺过的坑 阅读(635) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! 以下是Apache Beam的官网 : Apache Beam的前世今生 Apache Beam前身是Google Dataflow SDK,DataFlow是谷歌的提供大数据计算平台。在DataFlow之前,谷歌的批处理和流处理(流计算,实时处理)使用了不同系统,流处理有Mi 阅读全文
posted @ 2017-09-29 08:39 大数据和AI躺过的坑 阅读(5317) 评论(0) 推荐(1) 编辑
摘要: 不多说,直接上干货! Kudu1.1.0 新特性 优化和改进 工具 兼容性 参考 https://github.com/cloudera/kudu/blob/master/docs/prior_release_notes.adoc 个人github https://github.com/qiulp/ 阅读全文
posted @ 2017-09-29 00:03 大数据和AI躺过的坑 阅读(2119) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51438109 阅读全文
posted @ 2017-09-28 23:52 大数据和AI躺过的坑 阅读(778) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51416829 阅读全文
posted @ 2017-09-28 23:51 大数据和AI躺过的坑 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/70858466 阅读全文
posted @ 2017-09-28 23:49 大数据和AI躺过的坑 阅读(849) 评论(0) 推荐(0) 编辑
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 180 下一页