大数据基础--大数据概念与应用(刘鹏《大数据》课后习题答案)
1.新摩尔定律的含义是?
Jim Gray提著名的“新摩尔定律”,即人类有史以来的数据总量,每过18个月翻一番。
2.大数据现象是怎么形成的?
随着存储成本的下降,云计算、硬件性价比以及软件技术的进步,智能设备、传感器的普及,物联网、人工智能的发展,数据规模急剧膨胀,各行业积累的数据量越来越大,数据类型也越来越多,越来越复杂,于是“大数据”应运而生。
3.大数据有哪些特征?
(1)Volume,体量大。从2013至2020年,人类的数据规模将扩大50倍,每年产生的数据将增长到44万亿GB,相当于美国国家图书馆数量的数百万倍,且每18个月翻一番。
(2)Variety,种类多。大数据与传统数据相比,数据来源广、维度多、类型杂。
(3)Velocity,速度快。随着现代感测、互联网、计算机技术的发展,数据生成、存储、分析、处理的速度远远超过人类的想象力,这也是大数据区别于传统数据或小数据的显著特征。
(4)Value,价值高但价值密度低。大数据有巨大的潜在的价值,但同其呈几何指数爆发的增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。
4.如何对大数据的来源进行分类?
我们可以从产生数据的主体、数据来源的行业、数据存储的形式三个方面对大数据的来源进行分类。
(1)按产生数据的主体划分
1)少量企业应用产生的数据。
2)大量人产生的数据。
3)巨量机器产生的数据。
(2)按数据来源的行业划分
1)以BAT为代表的互联网公司。
2)电信、金融、保险、电力、石化系统
3)公共安全、医疗、交通领域
4)气象、地理、政务等领域
5)制造业和其他传统行业
(3)按数据存储的形式划分
1)结构化数据
2)非结构化数据
5.常用大数据获取的途径
(1)系统日志采集
(2)互联网数据采集
(3)APP移动端数据采集
(4)与数据服务机构进行合作
6.大数据处理方法有哪些?
(1)大数据采集。大数据的采集通常采用多个数据库来接收终端,并且可以使用数据库进行简单的处理工作。常用方法主要有数据抓取、数据导入、物联网传感设备自动采集。
(2)导入与预处理。主要包括数据清洗、数据集成、数据变换、数据归约。
(3)统计与分析。统计与分析主要是利用分布式数据库,或分布式计算集群来对存储于其内的海量数据进行普通的分析和分析汇总,以满足大多数常见的分析需求。
(4)大数据挖掘。数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的的数据进行分析,查找特定类型的模式和趋势,最终形成创建模型。方法主要有分类、聚类、关联规则和预测模型。
6.大数据预处理的方法有哪些?
(1)数据清洗。主要是达到数据格式标准化、异常数据清除、数据错误纠正、重复数据的清除等目标。
(2)数据集成。是将多个数据源中的数据结合起来并统一存储,建立数据仓库。
(3)数据变换。过平滑聚集、数据概化、规范化等方式将数据转换成适合数据挖掘的形式。
(4)数据归约。寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据集。
7.大数据的挖掘方法有哪些?
(1)分类。一种重要的数据分析形式,根据重要数据类的特征向量及其他的约束条件,构造分类函数或分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。典型算法:朴素贝叶斯算法、KNN、SVM、AdaBoot算法、C4.5算法、CART算法。
(2)聚类。目的在于将数据集内具有相似特征属性的数据聚集在一起,同一个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征要有明显区别。典型算法:BIRCH算法、K-means算法、期望最大化算法(EM算法),
(3)关联规则。指搜索系统中的所有数据,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得预先未知的和被隐藏的,不能通过数据库的逻辑操作或统计方法得出的信息。典型算法:Apriori算法、FP-Growth算法。
(4)预测模型。一种统计或数据挖掘的方法,包括可以在结构化与非结构化数据中使用已确定未来结果的算法和技术,可为预测、优化、预报和模拟等许多业务系统使用。典型算法:序贯模式挖掘SPMGC算法。
8.大数据应用场景
(1)零售行业大数据应用
(2)金融行业大数据应用
(3)医疗行业大数据应用
(4)教育行业大数据应用
(5)农业大数据应用
(6)环境大数据应用
(7)智慧城市大数据应用