大数据计算引擎

大数据计算引擎:从Hadoop到Flink
=========================

大数据计算引擎,根据使用场景和数据处理方式,可以分为批量计算、流式计算和图计算三大类。其中,Hadoop是奠定了所有计算框架的基石,虽然数据吞吐量大,但离线处理速度较慢。TEZ是有向无还图图计算引擎,虽然支持DAG,但是其复杂度较高,时间延迟在秒级甚至毫秒级,且不支持SQL。流式计算引擎Flink则是在Hadoop和TEZ的基础上,为流式计算而设计,既可以做离线分析,又可以流式处理,并且支持SQL。

TEZ:第二代计算引擎,大有不同
========================

TEZ,第二代计算引擎,是有向无还图(DAG)结构,虽然支持DAG,但是其复杂度较高,时间延迟在秒级甚至毫秒级,且不支持SQL。与Hadoop和Spark不同的是,TEZ专注于离线处理,致力于为数据分析和决策提供更加高效的方式。

Flink:第三代计算引擎,流式计算的利器
=========================

流式计算引擎Flink,出生在大数据时代,专为流式数据处理而设计,支持离线分析和流式处理,同时支持SQL。它将流式处理推向了新的高度,相比于TEZ更加灵活和强大,弥补了Hadoop和Spark在某些场景的不足。Flink的微批次处理技术和流式 SQL 查询能力,使得其成为流式计算的利器,能够应对物联网、金融行业、视频直播和电商等行业的实时数据处理需求。

posted @ 2023-10-02 23:10  Python孔德逸  阅读(92)  评论(0编辑  收藏  举报