大数据基础--大数据挖掘工具(刘鹏《大数据》课后习题答案)
1.简述常用机器学习系统和大数据挖掘工具有哪些。
(1)Mahout,Apache Mahout是一个由Java语言实现的开源的可拓展的机器学习算法库。
(2)Spark MLlib,运行在Spark平台上专门为集群上并行运行而设计,内存中更快地实现多次迭代,适用于大规模数据集。
(3)其他数据挖掘工具,有SystemML、GraphLab、Parameter Server、Scikit-Learn、Weka、基于R语言的机器学习库、H2O、腾讯大规模主题模型训练系统Peacock与深度学习平台Mariana、百度大规模机器学习框架ELT与机器学习云平台BML、阿里数据挖掘平台DT PAI等。
2.Mahout的适用场合与特点有哪些?
Apache Mahout主要运作于MapReduce计算模型上,Mahout具有高吞吐、高并发、高可靠的特点,这就保证了其适合于大规模数据的机器学习。
3.Spark MLlib的适用场合和特点有哪些?
Spark MLlib运行在Spark平台上专门为集群上并行运行而设计,适用于大规模数据集。运行时间和计算成本较低,适用于数据挖掘算法。
4.简述SystemML的体系结构。
5.简述Parameter Server的工作原理。
基于模型参数数据的抽样方法,把所有机器学习算法抽象为对学习过程中一组模型参数的管理和控制,并提供对大规模场景下大量模型参数的有效管理与访问。
6.简述Scikit-Learn的主要模块。
Scikit-Learn是基于Python的机器学习库,建立在Numpy、Scipy和matplotlib基础之上,使用BSD开源许可证,主要模块有分类、回归、聚类、数据降维、模型选择与数据预处理。
7.简述Weka的工作原理。
Weka作为一个基于Java的开源数据挖掘平台,实现了大量的机器学习算法,使用GUI界面与数据文件交互并生成可视化的结果,提供了通用API,可以将Weka嵌入应用程序完成特定任务,通过接口,开发者还可加入自行实现的数据挖掘算法。
8.基于R语言的机器学习库有哪些?
主要有:
- Clever Algorithms For Machine Learning
- Machine Learning For Hackers
- Machine Learning Task View on CRAN—R语言机器学习包列表,按算法类型分组。
- caret—R语言150个机器学习算法的统一接口
- SuperLearner and subsemble—该包集合了多种机器学习算法
- Introduction to Statistical Learning
9.简述H2O机器学习系统的主要功能。
(1)为应用提供快速的机器学习引擎。
(2)通过H2O提供的API接口,开发者可以将H2O提供的机器学习服务整合进自己的应用。
(3)提供易用的WebUI、R、Python、Scala、Java、JSON和Javascript接口,可连接到HDFS、S3、SQL与NoSQL数据源。