01 2018 档案

摘要:特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 卡方独立检验 阅读全文
posted @ 2018-01-31 17:45 大葱拌豆腐 阅读(760) 评论(0) 推荐(0) 编辑
摘要:数据规范化(标准化) 在数据预处理时,这两个术语可以互换使用。(不考虑标准化在统计学中有特定的含义)。 下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的。 首先举一个例子: Normalizer 规范化 将某个特征向量(由所有样本某一个特征组成的向量)计算其p 阅读全文
posted @ 2018-01-31 15:00 大葱拌豆腐 阅读(1865) 评论(0) 推荐(0) 编辑
摘要:转载自:http://www.cnblogs.com/CheeseZH/p/5265959.html SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改, 阅读全文
posted @ 2018-01-31 11:15 大葱拌豆腐 阅读(454) 评论(0) 推荐(0) 编辑
摘要:本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有样本的特征向量组成的矩阵 x(i) 是第i个样本包含的所有特征组成的向量x(i)=(x(i)1,x( 阅读全文
posted @ 2018-01-31 10:51 大葱拌豆腐 阅读(313) 评论(0) 推荐(0) 编辑
摘要:一对多(One-vs-Rest classifier) 将只能用于二分问题的分类(如Logistic回归、SVM)方法扩展到多类。 参考:http://www.cnblogs.com/CheeseZH/p/5265959.html “一对多”方法 Spark “一对多”代码 Spark中那些方法可以 阅读全文
posted @ 2018-01-30 21:49 大葱拌豆腐 阅读(1528) 评论(0) 推荐(0) 编辑
摘要:Spark2.0 MLPC(多层神经网络分类器)算法概述 MultilayerPerceptronClassifier(MLPC)这是一个基于前馈神经网络的分类器,它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型。 中间的节点使用sigmoid (logistic) 阅读全文
posted @ 2018-01-30 17:13 大葱拌豆腐 阅读(2000) 评论(0) 推荐(0) 编辑
摘要:概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树。 GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression T 阅读全文
posted @ 2018-01-22 11:56 大葱拌豆腐 阅读(3469) 评论(0) 推荐(0) 编辑
摘要:摘要 在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TRACE那么简单。 主要问题 调整Spark日志级别的配置文件是$SPARK_HOME/conf/lo 阅读全文
posted @ 2018-01-20 19:36 大葱拌豆腐 阅读(653) 评论(0) 推荐(0) 编辑
摘要:概述 随机森林是决策树的组合算法,基础是决策树,关于决策树和Spark2.0中的代码设计可以参考本人另外一篇博客: http://www.cnblogs.com/itboys/p/8312894.html随机森林Spark中基于Pipeline和DataFrame的代码编写和决策树基本上是一样的,只 阅读全文
posted @ 2018-01-20 15:47 大葱拌豆腐 阅读(664) 评论(0) 推荐(0) 编辑
摘要:ALS矩阵分解 http://blog.csdn.net/oucpowerman/article/details/49847979 http://www.open-open.com/lib/view/open1457672855046.html 一个的打分矩阵 A 可以用两个小矩阵和的乘积来近似,描 阅读全文
posted @ 2018-01-20 14:40 大葱拌豆腐 阅读(289) 评论(0) 推荐(0) 编辑
摘要:MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。 T 阅读全文
posted @ 2018-01-19 11:24 大葱拌豆腐 阅读(197) 评论(0) 推荐(0) 编辑
摘要:参数设置 α: 梯度上升算法迭代时候权重更新公式中包含 α : http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和最大迭代次数的作用,给出Python版的函数计算过程。 λ: λ,正则化参数(泛化能力),加正则化的前 阅读全文
posted @ 2018-01-19 10:55 大葱拌豆腐 阅读(1308) 评论(0) 推荐(0) 编辑
摘要:概述 分类决策树模型是一种描述对实例进行分类的树形结构。 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 。决策树基本上都是 采用的是贪心(即非回溯)的算法,自顶向下递归分治构造。 生成决策树一般包含三个步骤: 特征选择 决策树生成 剪枝 分类决策树模型是一种描述对实例进行分类的树形 阅读全文
posted @ 2018-01-18 20:30 大葱拌豆腐 阅读(4630) 评论(1) 推荐(0) 编辑
摘要:PCA在Spark2.0中用法比较简单,只需要设置: 注意:PCA前一定要对特征向量进行规范化(标准化)!!! 如何选择k值? 大约选择20个主成分就足够了 随便做一个图可以选择了(详细可参考Scikit-learn例子) http://scikit-learn.org/stable/auto_ex 阅读全文
posted @ 2018-01-18 17:20 大葱拌豆腐 阅读(968) 评论(0) 推荐(0) 编辑
摘要:Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估 阅读全文
posted @ 2018-01-18 14:36 大葱拌豆腐 阅读(631) 评论(0) 推荐(0) 编辑
摘要:在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM 阅读全文
posted @ 2018-01-18 12:49 大葱拌豆腐 阅读(2082) 评论(0) 推荐(0) 编辑
摘要:一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负责整个集群中包括内存、CPU等资源的管理;ApplicationMaster负责应用程序 阅读全文
posted @ 2018-01-09 09:34 大葱拌豆腐 阅读(325) 评论(0) 推荐(0) 编辑
摘要:转载自:https://www.cnblogs.com/Scott007/p/3893318.html 1 概述 为了增大并发性,Yarn采用事件驱动的并发模型,将各种处理逻辑抽象成事件和调度器,将事件的处理过程用状态机表示。什么是状态机? 如果一个对象,其构成为若干个状态,以及触发这些状态发生相互 阅读全文
posted @ 2018-01-08 19:20 大葱拌豆腐 阅读(412) 评论(0) 推荐(0) 编辑
摘要:Spark ML Pipeline基于DataFrame构建了一套High-level API,我们可以使用MLPipeline构建机器学习应用,它能够将一个机器学习应用的多个处理过程组织起来,通过在代码实现的级别管理好每一个处理步骤之间的先后运行关系,极大地简化了开发机器学习应用的难度。 Spar 阅读全文
posted @ 2018-01-07 23:05 大葱拌豆腐 阅读(847) 评论(0) 推荐(0) 编辑
摘要:使用机器学习的方法可以解决越来越多的实际问题,它在现实世界中的应用越来越广泛,比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制,等等。 机器学习分类 我们都知道,机器学习可以分为三大类:监督学习(Supervised Learning)、无监督学习(Unsupervised Lear 阅读全文
posted @ 2018-01-07 22:58 大葱拌豆腐 阅读(1913) 评论(0) 推荐(1) 编辑
摘要:Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。 在spark.ml中,实现了加速失 阅读全文
posted @ 2018-01-07 16:28 大葱拌豆腐 阅读(497) 评论(0) 推荐(0) 编辑
摘要:1、Spark History Server的作用 在运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,这个服务是伴随Spark应用程序的运行周期的,也就是当应用程序运行完成后,将无法查看应用程序的历史记 阅读全文
posted @ 2018-01-06 22:30 大葱拌豆腐 阅读(412) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示