hive、spark、hadoop关系和大数据分析过程简述

hadoop：分布式文件系统

spark：大规模数据处理的统一分析引擎。使用spark统计分析比上一代MapReduce快几倍

hive：基于hadoop的分布式数据库，以前是hadoop的一个子项目。Hive 的本质是将 SQL 语句转换为 MapReduce 或者 spark 等任务执行，并可以针对数据仓库进行分布式交互查询

所以，基于hadoop+spark+hive的大数据分析统计的流程是这样的

graph LR; 　　Hive-->|sql转换spark任务|Spark; 　　Spark-->|分析统计|Hadoop;

hive将SQL转换为Spark任务，Spark基于hadoop进行分析将统计结果返回给hive

posted @ 2020-11-12 13:34 JaminX86 阅读(469) 评论(0) 编辑收藏举报

刷新页面返回顶部

Jamin