随笔分类 - 机器学习
摘要:GBDT GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。 Boosting思想 Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层
阅读全文
摘要:一. 正则化 1. 什么是正则化 正则化(Regularization) 是机器学习中对原始损失函数引入额外信息(模型复杂度惩罚项),以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是 目标函数变成了原始损失函数+额外项. 常用的额外项一般有两种,英文称作和
阅读全文
摘要:一、频率学派和贝叶斯派 1. 频率学派 他们认为世界是确定的。也就是说事件在多次重复实验中趋于一个稳定的值p,这个值就是该事件的概率。 参数估计方法-极大似然估计(MLE) 特点:这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。 2. 贝叶斯学派 认为世界是不确定的,对世界先有一个预先的
阅读全文
摘要:一. 判别模型 由数据直接学习决策函数 或者条件概率分布作为预测模型,即判别模型。判别方法关系的是给定的输入 ,应该预测什么样的输出 。 典型的判别模型包括:k近邻(knn)、感知机、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
阅读全文
摘要:0. Error(误差)、Bias(偏差)和Variance(方差) 模型性能度量 误差期望值 1. bias与 Variance区别 bias: 度量了某种学习算法的平均估计结果所能逼近学习目标的程度;(一个高的偏差意味着一个坏的匹配) variance :则度量了在面对同样规模的不同训练集时分散
阅读全文
摘要:概述 逻辑回归,也叫对数几率回归,它先回归出一个预测值,再用一个函数(sigmoid函数)把预测值转换为0 or 1类的概率从而实现分类。 Logistic回归 之前说到 Logistic 回归主要用于分类问题,我们以二分类为例,对于所给数据集假设存在这样的一条直线可以将数据完成线性可分。
阅读全文
摘要:支持向量机 线性可分 vs 线性不可分 线性可分 是否存在一条直线将两个类别分开 数学定义 向量定义 思考 参考文献 https://www.bilibili.com/video/BV1qf4y1x7kB?p=6
阅读全文
摘要:机器学习-概率图模型 概率图含义 概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布 如果用一个词来形容概率图模型(Probabilistic Graphical Model)的话,那就是“优雅”。对于一个实际问题,我们希望能够挖掘隐含在
阅读全文