flink流批一体

  在大数据处理计算领域,有离线计算和实时计算两种模式。一直以来, 我们都是用mapreduce / hive / sparkSQL来处理离线场景,用 sparkStreaming / flink处理实时场景,但是这种lambda架构会导致一个问题:进行更改时要同时更改两套代码,进行同步。

  flink流批一体横空处理,为大数据处理带来了一套新的解决方案。

  今年双11,Flink流批一体开始在阿里最核心的数据业务场景崭露头角,并扛住了40亿/秒的实时计算峰值。

  其实流批一体的技术里面最早提出于2015年,它的初衷是让大数据开发人员能够用同一套接口实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。spark、flink都陆续提出了自己的解决方案。虽然spark是最早提出流批一体理念的计算引擎之一,但其本质还是用批来实现流,用的是微批次的思想,有秒级的延迟,而且无法正确处理时间语义(数据在分布式传输过程中顺序发生改变,先生产的数据反而后到,导致计算不准确的一种现象),所以难以满足复杂、大规模的实时计算场景,迟迟无法落地。而2019年阿里收购flink后,投入大量研发力量,同时公司也面临离线和实时数据统计口径不一致的问题,影响广告、商务甚至是公司的运行决策,业务的迫切要求,技术力量的不断加入,都促进了flink向流批一体的发展。

  阿里搜索推荐业务、

  flink 流批一体API、Runtime运行时、FlinkSQL

  DataStream流计算, DataSet批处理,新引入 DAG API,流批一体调度器、可插拔shuffle插件等

  flinkSQL学习成本低,上手快,能够解决大部分场景,但不够灵活,这时可以使用DataSteam API,但是DataStream对批处理支持不太好。

posted @ 2021-01-04 17:07  极速遁走  阅读(1176)  评论(0编辑  收藏  举报