摘要: 图形输出结果类似于: 加入新方法: plt.figure() :自定义画布大小 plt.subplot() :设置画布划分以及图像在画布上输出的位置 输出结果: 加入新方法: plt.xticks():设置x轴刻度的表现方式 plt.xlim():设置x轴刻度的取值范围 图形输出结果: 修改plot 阅读全文
posted @ 2017-08-03 15:07 亢奋的小马哥 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 整数的阶乘(factorial)是所有小于及等于该数的正整数的积,0的阶乘为1。即:n!=1×2×3×...×n。 阅读全文
posted @ 2017-08-03 14:56 亢奋的小马哥 阅读(1427) 评论(0) 推荐(0) 编辑
摘要: 交叉验证 写一个函数,实现交叉验证功能,不能用sklearn库。 交叉验证(Cross-Validation): 有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集 阅读全文
posted @ 2017-08-02 11:24 亢奋的小马哥 阅读(297) 评论(0) 推荐(0) 编辑
摘要: package ml import java.util import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.mllib.linalg.distributed.RowMatrix import org.apache.spark.rdd.RDD import org.apache.spar... 阅读全文
posted @ 2017-08-01 14:16 亢奋的小马哥 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 大数据量的情况下用pyspark对数据进行处理的时候 pycharm运行会出现ERROR Utils: Uncaught exception in thread stdout writer for python错误 需要修改JVM参数 打开pycharm的安装目录 C:\Program Files 阅读全文
posted @ 2017-07-28 14:47 亢奋的小马哥 阅读(2556) 评论(0) 推荐(1) 编辑
摘要: aggregateByKey 函数原型:aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None) 参数与aggregate相同 根据key进行合并 上例稍加改动可以完成一个wordcounts 参数与aggregate相同 根据 阅读全文
posted @ 2017-07-26 16:16 亢奋的小马哥 阅读(3357) 评论(0) 推荐(0) 编辑
摘要: 在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。 当在具有常量非零列的数据集上匹配AF 阅读全文
posted @ 2017-07-25 10:50 亢奋的小马哥 阅读(1087) 评论(0) 推荐(0) 编辑
摘要: 多层感知器分类器(MLPC)是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。 每个层完全连接到网络中的下一层。 输入层中的节点表示输入数据。 所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输入映射到输出。 对于具有K + 1层的MLPC,这可以以矩阵 阅读全文
posted @ 2017-07-25 10:07 亢奋的小马哥 阅读(1146) 评论(0) 推荐(0) 编辑
摘要: 梯度提升树(GBT)是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归,可以使用连续和分类特征。 GBDT的优点 GBDT和随机森林一样,都具备决策树的一些优点: (1)可以处理类别特征和连续特征; (2)不需要对数据进行标准化预处理; 阅读全文
posted @ 2017-07-24 18:06 亢奋的小马哥 阅读(1871) 评论(0) 推荐(0) 编辑
摘要: The matrix is generated from SVD, and I am using the results from SVD to do clustering analysis. if your clustering only supports RDD as its input, he 阅读全文
posted @ 2017-07-21 11:28 亢奋的小马哥 阅读(485) 评论(0) 推荐(0) 编辑