随笔分类 - 大数据
摘要:原文地址:https://www.cnblogs.com/SevenwindMa/p/4366218.html 并行计算中,有两种并行的方法:任务并行(task-parallelism)和数据并行(data-parallelism)。 任务并行:将许多可以解决问题的任务分割,然后分布在一个或者多个核
阅读全文
摘要:Hive是一种基bai于duHDFS的数据仓库,并且提供了基于SQL模型的,针对存储了大数zhi据的数据仓库,进行分布式dao交互查询的查询引擎。 SparkSQL并不能完全替代Hive,它替代的是Hive的查询引擎,SparkSQL由于其底层基于Spark自身的基于内存的特点,因此速度是Hive查
阅读全文
摘要:原文地址:https://cloud.tencent.com/developer/article/1442771 Spark是一种通用的大数据计算框架,使用了内存内运算技术。今天加米谷大数据就来简单介绍一下Spark的简史。 Spark的简史 1、2009年,Spark诞生于伯克利大学AMPLab,
阅读全文
摘要:原文地址:https://blog.csdn.net/chengqiuming/article/details/78984218 一 Storm发展历史 二 Storm的历史版本
阅读全文
摘要:原文地址:https://www.pianshen.com/article/1983342380/ flink,storm,spark 三者的区别 我相信有不少的工程师都有着这样的处境,在学flink之前很好奇flink,storm,spark的区别是什么,为什么现在很多企业都在往flink方向转它
阅读全文