摘要: 1.R语言是解释性语言还是编译性语言? 解释性语言 2.简述R语言的基本功能。 R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能: (1)数据存储和处理功能,丰富的数据读取与存储能力,丰富的数据处理功能。 (2)数组运算工具 (3)完整连贯的统计分析工具 (4)优秀的统计制图功能 3 阅读全文
posted @ 2019-12-01 01:03 泰初 阅读(3693) 评论(0) 推荐(0) 编辑
摘要: 1.简述常用机器学习系统和大数据挖掘工具有哪些。 (1)Mahout,Apache Mahout是一个由Java语言实现的开源的可拓展的机器学习算法库。 (2)Spark MLlib,运行在Spark平台上专门为集群上并行运行而设计,内存中更快地实现多次迭代,适用于大规模数据集。 (3)其他数据挖掘 阅读全文
posted @ 2019-12-01 00:11 泰初 阅读(3577) 评论(0) 推荐(0) 编辑
摘要: 1.简述数据挖掘概念。 从科学定义上分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事前不知道的、具有潜在利用价值的信息和知识的过程。 从技术角度分析。数据挖掘就是利用一系列的相关算法和技术,从大数据中提取行业或公司所需要的、有实际应用价值的知识的过程。 数 阅读全文
posted @ 2019-11-30 16:12 泰初 阅读(6158) 评论(0) 推荐(0) 编辑
摘要: 1.采用哪些方式可以获取大数据? (1)通过业务系统或者互联网端的服务器自动汇聚(系统日志采集,网络数据采集(通过网络爬虫实现)),如业务数据、用户行为数据等。 (2)通过卫星、摄像机和传感器等硬件设备自动汇聚,如遥感数据、交通数据等。 (3)通过整理汇聚,如商业景气数据、人口普查数据等。 2.常用 阅读全文
posted @ 2019-11-28 21:13 泰初 阅读(8754) 评论(0) 推荐(0) 编辑
摘要: 1.新摩尔定律的含义是? Jim Gray提著名的“新摩尔定律”,即人类有史以来的数据总量,每过18个月翻一番。 2.大数据现象是怎么形成的? 随着存储成本的下降,云计算、硬件性价比以及软件技术的进步,智能设备、传感器的普及,物联网、人工智能的发展,数据规模急剧膨胀,各行业积累的数据量越来越大,数据 阅读全文
posted @ 2019-11-28 19:01 泰初 阅读(4893) 评论(0) 推荐(0) 编辑
摘要: 一、支持向量机 (SVM)算法的原理 支持向量机(Support Vector Machine,常简称为SVM)是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析。它是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔 阅读全文
posted @ 2019-10-29 20:58 泰初 阅读(40371) 评论(0) 推荐(0) 编辑
摘要: 对于维数比较多的数据,首先需要做的事就是在尽量保证数据本质的前提下将数据中的维数降低。降维是一种数据集预处理技术,往往在数据应用在其他算法之前使用,它可以去除掉数据的一些冗余信息和噪声,使数据变得更加简单高效,从而实现提升数据处理速度的目的,节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理 阅读全文
posted @ 2019-10-29 18:03 泰初 阅读(4781) 评论(0) 推荐(0) 编辑
摘要: 一、基于Sklearn的PCA代码实现 输出结果: 二、运行过程中出现的问题。 初次运行时出现:No module named 'sklearn.model_selection' 代码提示指向: 仔细查看代码,并无问题,问题出在Sklearn的版本过低,Sklearn 0.17.1的版本(及以前)是 阅读全文
posted @ 2019-10-29 17:54 泰初 阅读(2533) 评论(0) 推荐(0) 编辑
摘要: 一、PCA算法的原理 PCA(principle component analysis),即主成分分析法,是一个非监督的机器学习算法,是一种用于探索高维数据结构的技术,主要用于对数据的降维,通过降维可以发现更便于人理解的特征,加快对样本有价值信息的处理速度,此外还可以应用于可视化(降到二维)和去噪。 阅读全文
posted @ 2019-10-29 17:33 泰初 阅读(59159) 评论(1) 推荐(3) 编辑
摘要: 一、KNN算法原理 K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法。 它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现 阅读全文
posted @ 2019-10-28 22:55 泰初 阅读(22780) 评论(1) 推荐(0) 编辑