2017 年 11月随笔档案 - wlu

artificial neural network in spark MLLib

摘要：神经网络模型每个node包含两种操作：线性变换（仿射变换）和激发函数（activation function）。其中仿射变换是通用的，而激发函数可以很多种，如下图。 MLLib中实现ANN 使用两层(Layer)来对应模型中的一层： AffineLayer 仿射变换: output = W · 阅读全文

posted @ 2017-11-16 13:18 wlu 阅读(898) 评论(0) 推荐(0) 编辑

LogisticRegression in MLLib (PySpark + numpy+matplotlib可视化)

摘要：参考'LogisticRegression in MLLib' (http://www.cnblogs.com/luweiseu/p/7809521.html) 通过pySpark MLlib训练logistic模型，再利用Matplotlib作图画出分类边界。最终结果：阅读全文

posted @ 2017-11-13 15:50 wlu 阅读(1706) 评论(0) 推荐(1) 编辑

PCA in MLLib

摘要：SVD分解:

$A=U\Sigma V^T$ ，变换：

$\hat{A}=A\cdot V=U\Sigma$ 分解时先计算

$A^TA=U\Sigma^2U^T$ ，再进行SVD分解 SVD分解：调用Breeze的SVD库，得到

$U,\Sigma$ Explained Variance Ratio exp 阅读全文

posted @ 2017-11-13 12:58 wlu 阅读(363) 评论(0) 推荐(0) 编辑

集成算法（chapter 7 - Hands on machine learning with scikit learn and tensorflow）

摘要：Voting classifier 多种分类器分别训练，然后分别对输入（新数据）预测/分类，各个分类器的结果视为投票，投出最终结果：训练：投票：为什么三个臭皮匠顶一个诸葛亮。通过大数定律直观地解释：一个硬币P(H)=0.51。大数定律保证抛硬币很多次之后，平均得到的正面频数接近$0.51 \ 阅读全文

posted @ 2017-11-13 09:05 wlu 阅读(1771) 评论(0) 推荐(0) 编辑

LogisticRegression in MLLib

摘要：例子 iris数据训练Logistic模型。特征petal width和petal height，分类目标有三类。训练结果模型将特征空间划分结果（画图代码参见 http://www.cnblogs.com/luweiseu/p/7826679.html）： ML LogisticRegress算阅读全文

posted @ 2017-11-09 15:43 wlu 阅读(553) 评论(0) 推荐(0) 编辑

min cost max flow算法示例

摘要：问题描述给定 g 个group， n 个id， n 阅读全文

posted @ 2017-11-07 21:28 wlu 阅读(3023) 评论(5) 推荐(0) 编辑

GeneralizedLinearAlgorithm in Spark MLLib

摘要："GeneralizedLinearAlgorithm" SparkMllib涉及到的算法 Classification Linear Support Vector Machines (SVMs) Logistic regression Regression Linear least squares 阅读全文

posted @ 2017-11-07 16:10 wlu 阅读(676) 评论(0) 推荐(0) 编辑

RandomForest in Spark MLLib

摘要：决策树类模型 ml中的classification和regression主要基于以下几类： classification：决策树及其相关的集成算法，Logistics回归，多层感知模型； regression:决策树及其相关集成算法，线性回归。主要的模型有两类：线性模型

$GLM$ 和决策树：其阅读全文

posted @ 2017-11-02 11:24 wlu 阅读(753) 评论(0) 推荐(0) 编辑

FP-Growth in Spark MLLib

摘要：并行FP Growth算法思路上图的单线程形成的FP Tree。分布式算法事实上是对FP Tree进行分割，分而治之首先，假设我们只关心...|c这个conditional transaction，那么可以把每个transaction中的...|c保留，并发送到一个计算节点中，必然能在该计算节阅读全文

posted @ 2017-11-01 22:23 wlu 阅读(1098) 评论(0) 推荐(0) 编辑

KMeans|| in Spark MLLib

摘要：算法跟传统的kmeans的区别主要在于：kmeans||的k个中心的不是随机初始化的。而是选择了k个彼此“足够”分离的中心。 This is a variant of k means++ that tries to find dissimilar cluster centers by startin 阅读全文

posted @ 2017-11-01 15:43 wlu 阅读(207) 评论(0) 推荐(0) 编辑

Data and AI

11 2017 档案

公告

搜索

常用链接

我的标签

积分与排名

合集

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论