摘要:
import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ object Test2 { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName... 阅读全文
摘要:
R平行坐标图 library(lattice)data(iris)parallelplot( ~ iris[1:4], iris, groups = Species, horizontal.axis = FALSE, scales = list(x = list(rot = 90))) Tablea 阅读全文
摘要:
断言:提供了一组断言函数以用作在代码中记录和动态检查不变量的方式。 阅读全文
摘要:
梯度提升树(GBT)是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归,可以使用连续和分类特征。 导入包 导入数据源 GBT建模 代码执行结果 阅读全文
摘要:
多层感知器分类器(MLPC)是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。 每个层完全连接到网络中的下一层。 输入层中的节点表示输入数据。 所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输入映射到输出。 对于具有K + 1层的MLPC,这可以以矩阵 阅读全文
摘要:
导入包 导入源数据 逻辑回归建模 代码执行结果 阅读全文
摘要:
随机森林是决策树的集合。 随机森林结合许多决策树,以减少过度拟合的风险。 spark.ml实现支持随机森林,使用连续和分类特征,做二分类和多分类以及回归。 导入包 导入源数据 随机森林建模 代码执行结果 随机森林模型调优 阅读全文
摘要:
LogisticRegression简介 阅读全文
摘要:
一个简单的Pipeline,用作estimator。Pipeline由有序列的stages组成,每个stage是一个Estimator或者一个Transformer。 当Pipeline调用fit,stages按顺序被执行。如果一个stage是一个Estimator,将调用Estimator的fit 阅读全文
摘要:
Model selection模型选择 ML中的一个重要任务是模型选择,或使用数据为给定任务找到最佳的模型或参数。 这也称为调优。 可以对诸如Logistic回归的单独Estimators进行调整,或者对包括多个算法,特征和其他步骤的整个Pipeline进行调整。 用户可以一次调整整个Pipelin 阅读全文