随笔分类 - 作业--理论
摘要:1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因: 关系数据库已经很流行 关系数据库在大数据时代已经不能满足要求 首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据 其次,用户需要执行高级分析,比如机器学习和图像处理 在实际
阅读全文
摘要:一、什么是 Docker Compose Compose 是 Docker 官方的开源项目,负责实现Docker容器集群的快速编排,开源代码在 https://github.com/docker/compose 上。 我们知道使用 Dockerfile 模板文件可以让用户很方便的定义一个单独的应用容
阅读全文
摘要:1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark生态系统主要包含Spark Core、Spark SQL、Spark Streaming、MLib、GraphX以及独立调度器,下面对上述组件进行一一介绍。 (1)Spark
阅读全文
摘要:一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1. HDFS(Hadoop分布式文件系统) Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。 HDFS具有处理超大数
阅读全文