大数据技术原理与应用第三版课后简答题
课后简答题
答案网址,对着看
大数据技术原理与应用第三版答案合集-百度文库 (baidu.com)
第一章 大数据概述
1.试述信息技术发展史上的3次信息化浪潮及其具体内容。
2.试述数据产生方式经历的几个阶段。
3.试述大数据的4个基本特征。
4.试述大数据时代的“数据爆炸”特性。
5.科学研究经历了哪4个阶段?
6.试述大数据对思维方式的重要影响。
7.大数据决策与传统的基于数据仓库的决策有什么区别?
8.举例说明大数据的具体应用。
9.举例说明大数据的关键技术。
10.大数据产业包含哪些层面?
11.给出以下术语的定义:云计算、物联网。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章 大数据处理架构Hadoop
1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。
2.试述Hadoop具有哪些特性。
3.试述Hadoop在各个领域的应用情况。
4.试述Hadoop生态系统以及每个部分的具体功能。
5.配置Hadoop时,Java 的路径JAVA_ HOME是在哪- - 个配置文件中进行设置的?
6.所有节点的HDFS路径是通过fs.default.name来设置的,请问它是在哪个配置文件中设置的?
7.试列举单机模式和伪分布模式的异同点。
8.Hadoop伪分布式运行启动后所具有的进程都有哪些?
9.如果具备集群实验条件,请尝试按照Hadoop官方文档搭建全分布式的Hadoop集群环境。
第三章 分布式文件系统HDFS
- 试述分布式文件系统设计的需求。
2.分布式文件系统是如何实现较高水平扩展的?
3.试述HDFS中的块和普通文件系统中的块的区别。
4.试述HDFS中的名称节点和数据节点的具体功能。
5.在分布式文件系统中,中心节点的设计至关重要,请阐述HDFS是如何减轻中心节点的负担的。
- HDFS 只设置唯一-- 个名称节点, 在简化系统设计的同时也带来了一些明显的局限性,请阐述局限性具体表现在哪些方面。
7.试述HDFS的冗余数据保存策略。
8.数据复制主要在数据写人和数据恢复的时候发生,HDFS数据复制使用流水线复制的策略,请阐述该策略的细节。
9.试述HDFS是如何探测错误发生以及如何进行恢复的。
10.请阐述HDFS在不发生故障的情况下读文件的过程。
11.请阐述HDFS在不发生故障的情况下写文件的过程。
第四章 分布式数据库HBase
- 试述在Hadoop体系架构中HBase与其他组成部分的相互关系。
- 请阐述HBase和BigTable的底层技术的对应关系。
- 请阐述HBase和传统关系数据库的区别。
- HBase 支持哪些类型的访问接口?
- 请以实例说明HBase数据模型。
- 分别解释HBase中行键、列键和时间戳的概念。
- 请列举实例来阐述HBase的概念视图和物理视图的区别。
- 试述HBase各功能组件及其作用。
- 请阐述HBase的数据分区机制。
- HBase 中的分区是如何定位的?
- 试述HBase的三层结构中各层次的名称和作用。
- 请阐述在HBase三层结构下,客户端是如何访问到数据的。
- 试述HBase系统基本架构及其每个组成部分的作用。
- 请阐述Region服务器向HDFS中读写数据的基本原理。
- 试述HStore的工作原理。
- 试述HLog的工作原理。
- 在HBase中,每个Region服务器维护- 一个HLog, 而不是每个Region都单独维护-一个HLog。 请说明这种做法的优点和缺点。
第七章 MapReduce
- 试述MapReduce和Hadoop的关系。
- MapReduce 是处理大数据的有工具,但不是每个任务都可以使用MapReduce来进行处理的。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。
- MapReduce 计算模型的核心是Map函数和Reduce兩数,试述这两个函数各自的输入、输出以及处理过程。
- 试述MapReduce的工作流程(需包括提交任务、Map、Shufle. Reduce 的过程)。
- Shuffle 过程是MapReduce工作流程的核心,也被称为奇迹发生的地方,试分析Shuffle过程的作用。
- 分别描述Map端和Reduce端的Shuffle过程(需包括溢写、排序、归并、“领取"的过程)。
- MapReduce 中有这样-一个原则:移动计算比移动数据更经济。试述什么是本地计算,并分析为何要采用本地计算。
- 试说明一个MapReduce程序在运行期间所启动的Map任务数量和Reduce任务数量各是由什么因素决定的。
- 是否所有的MapReduce程序都需要经过Map和Reduce这两个过程?如果不是,请举例说明。
- 试分析为何采用Combiner 可以减少数据传输量。是否所有的MapReduce程序都可以采用Combiner?为什么?
- MapReduce程序的输人文件、输出文件都存储在HDFS中,而在Map任务完成时得到的中间结果存储在本地磁盘中。
- 试分析中间结果存储在本地磁盘而不是HDFS上有何优缺点。
- 早期的HDFS,其默认块( Block)大小为64 MB,而较新的版本默认为128 MB,采用较大的块具有什么影响和优缺点?
- 试画出使用MapReduce来对英语句子“Whatever is worth doing is worth doing well"进行单词统计的过程。.在基于MapReduce的单词统计中, MapReduce如何保证相同的单词数据会划分到同一个Reducer.上进行处理以保证结果的正确性?
- MapReduce 可用于对数据进行排序,- - 种想法是利用MapReduce的自动排序功能,即默认情况下,Reduce任务的输出结果是有序的,如果只使用一- 个Reducer来对数据进行处理.输出,则结果就是有序的了。但这样的排序过程无法充分利用MapReduce的分布式优点。试设计一个基于MapReduce的排序算法,假设数据均位于[1, 100], Reducer 数量为4,正序输出结果或逆序输出结果均可。试简要描述该算法(可使用分区、合并过程)。
- 试设计一个基于MapReduce的算法,求出数据集中的最大值。假设Reducer大于1,试简要描述该算法(可使用分区、合并过程)。
- 对于稀疏矩阵的乘法,试思考出与正文中矩阵乘法所采用的不同的MapReduce策略,写出相应的Map函数和Reduce函数。
- 当输人为由许多整数构成的文件、输出为最大整数时,试设计MapReduce算法实现上述功能,并写出Map丽数和Reduce函数。
- 试述实现矩阵-向量乘法与矩阵乘法采用不同MapReduce策略的原因。
- 为非方阵矩阵(即行数与列数不等的矩阵)的乘法运算设计- -般化的MapReduce算法,并写出Map函数和Reduce函数。
第十四章 基于Hadoop的数据仓库Hive
1.试述在Hadoop生态系统中Hive与其他组件之间的相互关系。
2.请简述Hive与传统数据库的区别。
3.请简述Hive的几种访问方式。
4.请分别对Hive的几个主要组成模块进行简要介绍。
5.请简述向Hive中输人- - 条查询的具体执行过程。
6.请简述Hive HA原理。
7.请简述Impalad进程的主要作用。
8.请比较Hive与Impala的异同点。
9.请简述State Store的作用。
10.请简述Impala执行- - 条查询的具体过程。
11.请列举Hive中的列所支持的3种集合数据类型。
12.请列举几个Hive的常用操作及基本语法。