摘要: 8 Spark MLlib 简答题 T1 与 MapReduce 框架相比,为何 Spark 更适合进行机器学习各算法的处理? 答:通常情况下,机器学习算法参数学习的过程都是迭代计算。MapReduce 由于延迟高、磁盘开销大、无法高效支持迭代计算,不适合高效的实现机器学习算法;Spark 由于立足 阅读全文
posted @ 2024-05-16 21:44 100%Jacker_Channel 阅读(247) 评论(0) 推荐(0)
摘要: 7 Spark Streaming 简答题 T1 请阐述静态数据和流数据的区别? 答:静态数据是可以看作是静止不动的,适合进行批量计算;流数据是指数据以大量、快速、时变的流形式持续到达的,适合进行实时计算。同时,流计算被处理后,只有部分进入数据库成为静态数据,其余部分则被丢弃。 T2 请阐述批量计算 阅读全文
posted @ 2024-05-16 21:43 100%Jacker_Channel 阅读(414) 评论(0) 推荐(0)
摘要: 6 Spark SQL 简答题 T1 请阐述 Hive 中 SQL 查询转化为 MapReduce 作业的具体过程。❌ 答:HiveSQL 命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行,执行器通常的任务是启动一个或多个 MapR 阅读全文
posted @ 2024-05-16 21:43 100%Jacker_Channel 阅读(313) 评论(0) 推荐(0)
摘要: 4 Spark 环境搭建和使用方法 简答题 T1 请阐述Spark的四种部署模式。🌱 答: ① Local 模式(单机模式) ② Standalone 模式(使用 Spark 自带的简单集群管理器) ③ YARN 模式(使用 YARN 作为集群管理器) ④ Mesos 模式(使用 Mesos 作为 阅读全文
posted @ 2024-05-16 21:42 100%Jacker_Channel 阅读(291) 评论(0) 推荐(0)
摘要: 3 Spark 的设计与运行原理 简答题 T1 Spark 是基于内存计算的大数据计算平台,请阐述 Spark 的主要特点。🌱 答: ① 运行速度快:Spark使用先进的有向无环图执行引擎,以支持循环数据流与内存计算; ② 容易使用:Spark 支持多种语言进行编程,简洁的 API 设计有助于用户 阅读全文
posted @ 2024-05-16 21:42 100%Jacker_Channel 阅读(405) 评论(0) 推荐(0)
摘要: 2 Scala 语言基础 简答题 T1 简述 Scala 语言与 Java 语言的联系与区别。 答: ① 联系: (1)Scala 和 Java 均运行在 JVM 之上; (2)Scala 和 Java 均有面向对象语言特点; ② 区别: (1)Scala 是类 Java 的多范式编程;Java 是 阅读全文
posted @ 2024-05-16 21:40 100%Jacker_Channel 阅读(612) 评论(0) 推荐(0)
摘要: 1 大数据技术概述 简答题 T1:请阐述大数据处理的基本流程。🌱 答:大数据的基本处理流程,主要包括数据采集、存储管理、处理分析、结果呈现等环节。 T2:请阐述大数据的计算模式及其代表产品。 答: 大数据计算模式 解决问题 代表产品 批处理计算 针对大规模数据的批量处理 MapReduce、Spa 阅读全文
posted @ 2024-05-16 21:25 100%Jacker_Channel 阅读(506) 评论(0) 推荐(0)