文章分类 - 机器学习
摘要:牛顿法和拟牛顿法 牛顿法(Newton method)和拟牛顿法(quasi Newton method)和梯度下降法一样也是求解最优化问题的常用方法,但是他们的收敛速度比梯度下降法快。牛顿法是迭代算法,每一步都需要求目标函数的海森矩阵的逆矩阵,计算复杂;拟牛顿法通过正定矩阵
阅读全文
摘要:梯度下降法 在求解机器学习算法模型参数的时候,梯度下降法(gradient descent)和最小二乘法(least squares)是最经常使用的方法,由于梯度下降法衍生出的分支较多,所以在这里对梯度下降法单独做一个总结。 梯度下降法详解 梯度 梯度
阅读全文
摘要:最小二乘法 最小二乘法,可以理解为最小平方和,即误差的最小平方和,在线性回归中,$误差=真实值 预测值$。最小二乘法的核心思想就是——通过最小化误差的平方和,使得拟合对象无限接近目标对象,最小二乘法一般解决线性问题。 最小二乘法——代数法 假设线性回归
阅读全文
摘要:sign(符号)函数 sign函数概述 sign函数也称作符号函数,当x 0的时候y=1;当x=0的时候y=0;当x0 \\ 0,\quad x=0 \\ 1,\quad x
阅读全文
摘要:Sigmoid函数 Sigmoid函数详解 上图为Sigmoid函数图像,可以看出当$z$趋于正无穷时,$g(z)$趋于1;当$z$趋于负无穷时,$g(z)$趋于0。
阅读全文
摘要:最小角回归法 最小角回归相当于前向选择法和前向梯度法的一个折中算法,简化了前项梯度法因$\epsilon$的迭代过程,并在一定程度的保证了前向梯度法的精准度。 通常用最小角回归法解决线性模型的回归系数。对于一个有$m$个样本,每个样本有$n$个特征的训
阅读全文
摘要:前向选择法和前向梯度法 由于前向选择法和前向梯度法的实现原理涉及过多的矩阵运算,本文只给出两种算法的思路。两者实现都是把矩阵中的向量运算具体化成平面几何中的向量运算。 前向选择法 前向选择法是一种典型的贪心算法。 通常用前向选择
阅读全文
摘要:[TOC] 极大似然估计 最大似然原理 极大似然估计 极大似然估计是建立在最大似然原理的基础上的一个统计方法。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。通过观察若干次实验的结果,利用实验结果得到某个参数值能够使样本出现的概率最大,则称为
阅读全文
摘要:[TOC] 条件概率 条件概率简介 条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:$p(A|B)$,读作“在B的条件下A的概率”。若只有两个事件A,B,那么 $$ p(A|B) = {\frac{p(AB)}{p(B)}} $$ 其中$p(AB)
阅读全文
摘要:常见的概率分布模型 离散概率分布函数 离散概率分布也称为概率质量函数(probability mass function),离散概率分布的例子有 伯努利分布(Bernoulli distribution) &emsp
阅读全文
摘要:[TOC] 贝叶斯决策 贝叶斯决策理论 贝叶斯决策理论:在不完全情报下,对部分未知的状态用主观概率估计。 贝叶斯公式 从条件概率公式推导贝叶斯公式 若果$A$和$B$相互独立,则有$p(A,B) = p(A)p(B)$,并有条件概率公式 $$ p(A|B) = {\frac{
阅读全文
摘要:熵和信息增益 熵(Entropy) 熵表示 。假设离散随机变量$X$可以取到$n$个值,其概率分布为 $$ P(X=x_i)=p_i, \quad i = 1,2,\ldots,n $$ 则$X$的熵定义为 $$ H(X) = \sum_{i=1}^n p_i log{p_i
阅读全文