hive、spark、hadoop关系和大数据分析过程简述

hadoop:分布式文件系统

spark:大规模数据处理的统一分析引擎。使用spark统计分析比上一代MapReduce快几倍

hive:基于hadoop的分布式数据库,以前是hadoop的一个子项目。Hive 的本质是将 SQL 语句转换为 MapReduce 或者 spark 等任务执行,并可以针对数据仓库进行分布式交互查询

所以,基于hadoop+spark+hive的大数据分析统计的流程是这样的

graph LR;   Hive-->|sql转换spark任务|Spark;   Spark-->|分析统计|Hadoop;

hive将SQL转换为Spark任务,Spark基于hadoop进行分析将统计结果返回给hive

posted @ 2020-11-12 13:34  JaminX86  阅读(462)  评论(0编辑  收藏  举报