吴恩达读书笔记【3】-基于不同分布数据的模型
摘要:什么叫不同分布的数据 举几个例子来说明 例子1,要训练一个手机端的猫识别器,现在有 10000 张手机端的照片,并且被人为标记为是不是猫,然后我们可以从互联网上得到 200000 张猫咪图片,网络上的照片和移动手机端的照片就属于不同分布; 例子2,要训练一个语音识别系统,将某个地址转换成语音,现在有
阅读全文
激活函数
摘要:激活函数就是非线性函数,常用于非线性模型,特别是神经网络; 非线性函数用于构建非线性决策边界,多个非线性函数的组合能够构建复杂的决策面; 本文旨在总结这些函数,并进行对比分析 阶跃函数 最早的激活函数,图如下 缺点:不连续,且局部导数为 0,无法反向传播 它只用在 感知器 上 sigmoid 它是用
阅读全文
吴恩达读书笔记【2】-学习曲线
摘要:之前我写过一篇博客 学习曲线,解释的还算清楚, 但是读了吴恩达的书,又有些新的体会,主要是把 学习曲线 和 偏差方差 结合起来,进行模型优化分析 学习曲线解读 那么问题来了,最优错误率从何而来?一般我们是不好确定的,故我们可以把 测试集和训练集 误差间距较小时,定为最优样本量 参考资料: 吴恩达:完
阅读全文
吴恩达读书笔记【1】-偏差与方差
摘要:之前我写过一篇博客 偏差与方差,解释的还算清楚, 但是读了吴恩达的书,又有些新的体会,这里稍作记录 误差的来源:偏差与方差 首先思考一个问题 问:如果数据独立同分布,尝试获取足够多的数据,就能提升模型的性能,对吗? 答:获取更多的数据是无害的,但是对于模型的提升,却不一定有很大帮助,有时候获取更多数
阅读全文
EM 算法(三)-GMM
摘要:高斯混合模型 混合模型,顾名思义就是几个概率分布密度混合在一起,而高斯混合模型是最常见的混合模型; GMM,全称 Gaussian Mixture Model,中文名高斯混合模型,也就是由多个高斯分布混合起来的模型; 概率密度函数为 K 表示高斯分布的个数,αk 表示每个高斯分布的系数,αk>0,并
阅读全文
EM 算法(二)-KMeans
摘要:KMeans 算法太过简单,不再赘述 本文尝试用 EM 算法解释 KMeans,而事实上 KMeans 算是 EM 的一个特例 EM 算法是包含隐变量的参数估计模型,那对应到 KMeans 上,隐变量是什么?参数又是什么? 参数就是描述一个模型,在 KMeans 中是聚类质心;隐变量是每个样本的类别
阅读全文
EM 算法(一)-原理
摘要:讲到 EM 算法就不得不提极大似然估计,我之前讲过,请参考我的博客 下面我用一张图解释极大似然估计和 EM 算法的区别 EM 算法引例1-抛3枚硬币 还是上图中抛硬币的例子,假设最后结果正面记为1,反面记为0,抛10次,结果为 1101001011; 下面我用数据公式解释下这个例子和 EM 算法;
阅读全文
集成学习-Boosting 模型深度串讲
摘要:首先强调一下,这篇文章适合有很好的基础的人 梯度下降 这里不系统讲,只介绍相关的点,便于理解后文 先放一个很早以前写的 梯度下降 实现 logistic regression 的代码 def tiduxiajiang(): """梯度下降算法""" alpha=0.000001 # 学习率的确定方法
阅读全文
概率分布汇总
摘要:首先我们需要搞清楚几个概念:概率函数、概率分布、概率密度 我这里只做简单阐述,意在理解概念,可能不严谨。 我们知道变量可分为离散随机变量和连续随机变量; 概率函数:随机变量取某个值的概率 pi=P(X=ai)(i=1,2,3,4,5,6);以骰子为例,每次摇骰子取值为 1-6,取每个数字的概率为 1
阅读全文
卡尔曼滤波
摘要:什么是卡尔曼滤波 对于这个滤波器,我们几乎可以下这么一个定论:只要是存在不确定信息的动态系统,卡尔曼滤波就可以对系统下一步要做什么做出有根据的推测。即便有噪声信息干扰,卡尔曼滤波通常也能很好的弄清楚究竟发生了什么,找出现象间不易察觉的相关性。 因此卡尔曼滤波非常适合不断变化的系统,它的优点还有内存占
阅读全文
层次聚类
摘要:层次聚类也叫分层聚类,对数据进行逐层划分,最终形成树状的聚类结构。 数据集的划分可采用 “自顶向下” 的分割策略,也可采用 “自下而上” 的聚合策略。 聚合法-AGNES 算法 采用自下而上的聚合策略,初始每个样本为一个簇,然后每步找到距离最近的两个簇,并将它们融合,依次进行下去,直到所有样本在一个
阅读全文
集成学习-组合策略与Stacking
摘要:集成学习是如何把多个分类器组合在一起的,不同的集成学习有不同的组合策略,本文做个总结。 平均法 对数值型输出,平均法是最常用的策略,解决回归问题。 简单平均法 【h(x)表示基学习器的输出】 加权平均法 【w是基学习器的权重,w>0】 基学习器的权重一般是根据训练数据得到,所以不完全可靠,对于规模较
阅读全文
集成学习-梯度提升树
摘要:上篇博客已经讲了梯度提升树,但只讲了回归,本节讲一下分类,和一些进阶方法。 GBDT 分类 其实 GBDT 分类和回归思路基本相同,只是由于分类的标签是离散值,无法拟合误差, 解决办法有两种:一种是用指数损失函数,类似Adaboost,另一种是用类似于逻辑回归的对数似然损失函数,也就是输出类别预测的
阅读全文
集成学习-提升树
摘要:boosting 提升方法实际采用的是加法模型和前向分步算法 【之前在讲 Adaboost 时,讲过这两个算法,参考我的博客】 提升树 boosting tree 以决策树为基学习器的提升方法称为提升树,提升树可以解决分类和回归问题,分类问题以分类树为基学习器,回归问题以回归树为基学习器,决策树均为
阅读全文
集成学习-简介
摘要:集成学习被称作机器学习中的屠龙刀,在很多场景下都取得了不错的效果。 集成学习的思想很简单,三个臭皮匠顶个诸葛亮,也就是算法融合,这些算法可以是相同的,也可以是不同的。 集成学习分为两步 1. 先训练一批基分类器 【如果基学习器不同,一般称为个体学习器,意思一样,叫法不同而已】 2. 把这些基分类器组
阅读全文
集成学习-Adaboost 进阶
摘要:adaboost 的思想很简单,算法流程也很简单,但它背后有完整的理论支撑,也有很多扩展。 权重更新 在算法描述中,权重如是更新 其中 wm,i 是m轮样本i的权重,αm是错误率,Øm是第m个基学习器的输出,Zm是归一化因子 当预测值与真实值相同时,yØ=1,-αyØ<0,exp(-αyØ)<1,权
阅读全文
训练测试样本划分
摘要:在离线建模环节,需要对模型进行评估,这就需要对总样本进行划分,一部分用于训练,模型从训练集学习规则,一部分用于测试,检验模型的泛化能力。 下面介绍几种样本划分方法。 留出法 方法:将样本集 D 分成两个互斥的样本集合,训练集为S,测试集为T,S∩T=Ø,SUT=D 这种方法非常简单,但不能充分利用数
阅读全文
kmeans 聚类 k 值优化
摘要:kmeans 中k值一直是个令人头疼的问题,这里提出几种优化策略。 手肘法 核心思想 1. 肉眼评价聚类好坏是看每类样本是否紧凑,称之为聚合程度; 2. 类别数越大,样本划分越精细,聚合程度越高,当类别数为样本数时,一个样本一个类,聚合程度最高; 3. 当k小于真实类别数时,随着k的增大,聚合程度显
阅读全文
二分类实现多分类
摘要:引言 很多分类器在数学解释时都是以二分类为例,其数学推导不适用于多分类,模型本身也只能用于二分类,如SVM,Adaboost , 但是现实中很多问题是多分类的,那这些模型还能用吗 二分类 to 多分类 更改数学原理 改变这些模型的原理,重新推导数学公式,然后代码实现。 这种方法一般不可取,难度大,而
阅读全文
支持向量机 SVM
摘要:SVM,中文名叫支持向量机。 在深度学习出现以前,它是数据挖掘的宠儿; SVM具有十分完整的数据理论证明,但同时理论也相当复杂。 初识SVM 同其他分类算法一样,SVM分类也是寻找合适的决策边界,为方便理解,以二分类为例。 假设存在二分类样本,我们一定可以找到一个超平面将类别分开,但是通常会存在很多
阅读全文