随笔分类 - Math
摘要:正规方程法是和梯度下降法类似的另一种可以用来解决多元线性回归问题的解法。不同于梯度下降法需要一次次的迭代更新,正规方程法只需要通过解方程的方法,就可以得到最优化结果。这篇文章就简单介绍一下它的原理以及与梯度下降法的不同之处。 首先我们来看这样一幅图来引出一个问题环境。下图中J(θ1)损失函数Cost
阅读全文
摘要:在机器学习当中,进行特征选择、特征筛选时都会使用特征之间的相关性分析。比如有两个特征相关程度非常大,几乎都是同一个意思,那么就可以只保留一个特征。简单总结一下一些计算变量之间相关性的指标。 协方差 协方差是概率论当中非常基础的知识点了,它是用来描述两个随机变量相关程度的指标。 公式: 如果两个变量呈
阅读全文
摘要:最小二乘法是一个既熟悉又陌生的东西。 在回归问题中我们经常使用最小二乘法来预测出一条直线或者曲线用于拟合真正的数据点。而拟合数据的方式就是使用最小二乘法——使我们的预测值与真实值之间的差的平方和最小。 因为看起来十分基础和简单,甚至用上面这一段话就讲完了。 然而,为什么是平方和呢?而不是一次方或者三
阅读全文
摘要:在信息论当中,我们经常用熵来表示信息的混乱程度和不确定程度。熵越大,信息的不确定性就越强。 熵的公式如下: (注:log默认以2为底) 把这个公式拆开来看其实非常简单:一个负号,一个p(x)以及log(p(x))。我们知道一个事件发生的概率是0-1之间的,这样一个概率值送入log函数(如下图),肯定
阅读全文
摘要:核函数是我们处理数据时使用的一种方式。对于给的一些特征数据我们通过核函数的方式来对其进行处理。我们经常在SVM中提到核函数,就是因为通过核函数来将原本的数据进行各种方式的组合计算,从而从低维数据到高维数据。比如原来数据下样本点1是x向量,样本点2是y向量,我们把它变成e的x+y次方,就到高维中去了。
阅读全文
摘要:这篇主要想总结一下与标题相关的一些概念。之前一直也是模模糊糊的。 先设定一个大环境:现在假设我们有一个产生数据的机器,我们这个机器的参数为θ,机器产生的结果的结果为x。不同的参数可以产生不同的结果。后面我们的θ,x也分别是参数、结果的意思。 概率密度 首先引入概率密度函数 ,它也等于: 这几种写法。
阅读全文
摘要:矩阵分解是非常常见的操作矩阵方式。尤其是在推荐系统里,我们往往会有一个用户-物品矩阵,这个矩阵非常大,比如100w个用户*1000w个物品矩阵,这个时候我们可以通过矩阵分解一方面降低矩阵的维度,另一方面提取用户和物品各自的信息。 举个例子,对于100w*1000w的用户-物品矩阵,我们可以得到100
阅读全文
摘要:矩阵是非常重要而基础的数学知识了。大学课上学线性代数基本就是在学矩阵的各种操作和运算。在深度学习里,几乎所有的参数也都是存放在矩阵中,并通过矩阵来做各种运算。大概把矩阵的基本知识点复习和总结一下。 行列式和矩阵的区别: 行列式和矩阵特别像,行列式长这样(两边是竖线): 矩阵长这样: 或这样:(两边是
阅读全文
摘要:泰勒公式是非常又名和重要的一个知识点了,我记得学xgboost的时候就用到了“二阶泰勒展开”,这里对泰勒公式做一个梳理和总结。 对于泰勒公式,我把它理解成,用一个“有规律、可表达”的公式来代替一个复杂的函数。我们对一个函数进行“泰勒展开”,其实就是用泰勒公式去代替原函数。 泰勒公式定义: 这个式子称
阅读全文
摘要:方向导数 接着偏导数的基础,我们可以引出方向导数。 方向导数和偏导数的区别就是:方向不同。仅此而已。 我们常说的偏导数无非就是对x轴求偏导,对y求偏导。而方向导数则是对x轴与y轴之间的某一新方向求导数。 还是用一下上次的图,这里我在x轴和y轴之间的平面上自己画了一个方向,并且与x轴夹角为α。 那么我
阅读全文
摘要:最近想复习一下数学知识,才看到偏导数就感到“温故而知新“了。以前学高数的时候经常求偏导数,到最后就光记住怎么算了,这里带着实际意义总结一下。 偏导数的的定义就不写了,看了一下百度百科的定义是这样写的: 感觉实在是没有什么意义…… 从简单(普通导数)开始。我们都知道,对于一元函数而言,比如y=ax+b
阅读全文