七月在线公开课笔记-二十四-
七月在线公开课笔记(二十四)
人工智能—机器学习中的数学(七月在线出品) - P18:随机梯度下降法的困难与变种 - 七月在线-julyedu - BV1Vo4y1o7t1
我们稍微再简介一下我后面这个部分的内容,这部分当然可能更深入一些。大家我们去年有一个公开公开课,就专门讲这个大家也可以找一找叫做这个。呃,机器学习中的优化算法,那么那么一个课。一个论文班论文班的公开课。
啊。说是什么事情呢?就我们前面讲的这个梯度加政法。我们说牛顿法就不算了啊,就主要是用提步相也法。那个旧香法呢,它还是在具体的工程问题中还是有很多困。只有两个。第一个困难就梯度计算。
当你的这个通常你在积学习中啊,那个函数并不是一个写出来的一个呃。就是可以求导的这么一个公式啊,去求导。它实际上呢啊通常都是一个。有好多样本,每个样本给你一个函数,你把这个函数加起来。
再对这个整个这个函数是。啊,算这东西。当你样本量很大的时候,这件事儿就变得非常的耗时耗力。就是说那这样这函数它并不是一个那么简单的写出来的一个函,它是一大一大堆函数的求和,每一个函数里都有这个随塔。
但是通用的C塔的都是随塔。那后你要对这个东西求导,你想你要每一个函数求导一遍。在不同的位置都得这个都得求求一遍。然后呢,你把它们加起来,这样才得到整个函数的导数。这样呢计算就非常复杂,就是比较慢。
当你这个样本上打出来。还有一个问题呢,就是我们在讲这个学习率的选这个选取。选了小了手法收敛太慢,就着急角趾找太慢。选大了呢。他可能不收敛。比如说你就我们这个函数吧,你在这点出发,你知道要往右走。
如果你选那学习率非常大,砰跑这来了,你现在就要往左走,砰跑这来了,你再往右走又跑这来,来回震荡,它总远不收敛,对吧?选小了呢?你再往右走走一点,我还要往右走,再走一点,还要走,你再走一点。
走了一年也没走到地方,对吧?就是说这个学习率怎么选,具体问题还得具体分析。这是很恶心,你给你个新问题怎么办呢?😡,你就得试啊,这就非常的花时间。然后你要能试出来好,还好。有的时候你可能还。试不出来。
你就麻烦了,对吧?所以说这是他两个基本的问困难。那为了解决这个困难呢,我们说你的工程师都是很聪明的,他们就讲出些办法。第一个。就是随机梯度下降,这个是现在工程上用的最多的这个梯度下降类的优化算法。
他主要是为了解决第一个问题。就是梯度计算的问题。刚才不说为什么这个是个问题,因为样本量太大了,函数太多了,呃,挨个算一遍开发时间。所以说。对工程师们用了一个非常简单粗暴的方法,说,既然你全算一遍太慢。
那每次算一个不就行了。所以说每次做计算梯度的时候啊,最原始的梯度随机随机梯度下降法怎么做呢?就是每次梯度计算都只用一个样本。算出一个题录,先走走看,然后再用下一样本再算一个题录完,再走一步。
这样可以怎么着呢?比如你好多样本都是类似的。算一遍没什么用,都是一样的。所以避免在类似样本上计算梯度造成种我们计算。然后你这种算算法呢,它增加了一些不确定性。比如说。你不是算平均值。
你算的是每一个样本的这个给你的梯录。所以增加了这个跳出当前那个局部计要值的一些潜力。就比如你有些样本可能在远出啊,就就有有这种好处。然后这种做法的缺点是什么?就是说它这个非常的操杂,就是说一会儿往左。
一会往右,一会儿往上一会儿往下啊,这个有可能不收敛,怎么办呢?你要逐渐的缩小这个学习率。一开始学习就选一个数,然后逐渐的把它变小,随着你的算法前进把它变小。最后呢。他也会收敛。然后在这种情况下。
它跟之前那个正常的梯度加量化,这个收敛速度也差不多。就是说。有了前面两个好处,还没有影响到他的收敛,所以整体上来说还是变好了啊,这就是最基本的这个随机吸度枪。每次只用一个样本。那。还有个小批量。
随即提速下降了,就是说只用一个样本呢,有时候你的样本本身它可能这个就是个坏样本啊,这个给你一些不好的信息,那个不太好。那怎么样把它的稳定一点呢?就是每次季度计算呢使用一个小批量样本。
比如说你有100万个样本。不是不好算吗,那我每次算100吧。对吧每次只用100,第100个呢。基本上你计算机就可以承受了。然后呢嗯。就是他解决了你这个计算复杂的呃耗耗时的问题。然后呢。
它也比你只用一个呢要更加稳定一些。而且现在一般你要是批量这个不是很大的话,呃,我们这个有一些矩阵运算工具啊,什么都可以帮助你就行计算都比较快。所以说它又比前面那更好一些。
所以现在一般大家讲的随机梯度下降化指的都是这个小批量随机梯度下降化。我们在神经网络训练中,就把这个mini batchSGT叫做SSPD就这个意思。这个是一个术语上的那个其实是叫错了,但是。
这用叫习惯这么叫。哎,那有的同学说这个选择是不是随机的,就是这个批量的选择是不是随机的,就这个随机两个字,它不是指那个批量选择是随机的。他就是说你把那个呃样本完,你给他排个序,这个排序可能是随机的。
就是反正你就排个序,然后你就按照那个顺序来就就这么选这就完了。然后这小批量也是你就是给他先排出序。这个排序呢。就是说你不能按照那种有意义的方式排序,你可能是。你可能比较随机的一个排序。排完之后呢。
你在前面选100个,先做一次,然后选这101到第200个再做一次。然后这样就是你一旦排好序之后,你就要按就apple来是吧?就这条的。然后你圈来一遍之后,你可能要给他呃,这个同学说要杀le一下。
就是说打断一下,再排下去,然后你再来一遍。就是每次排序的时候,你要给他大乱一下,但排好之后你就拍盘来了。呃,有同学说这个不同批次的小批量中会不会有重复样本,这个事情我认为是没有必要非得这样做的。
就是说你比较简单的方式就是你先排下序,然后你就挨盘这样做。如果你要每次选小样本的时候,你还得去做一个抽样。这个事不是花时间吗?也没有特别大的意义,我觉得除非有特殊要求。对。然后。梯度消失是另外一回事。
我们下节课可能会讲到这个。一般来讲是在这个呃深度学习中,当你的那个。我们会讲到啊就是说跟我们求导数有关系,就跟我们下一节课要讲的这个求导数法则有关系。好,还有没有别的问题?好。那我们继续。那么。
所以我们说随机提不下减法啊,它主要解决了第一个困难,就是说提不计算。但是它对于第二个困难。还没有什么特别好的办法。所以它的主要问题在于第二个问题,学习率的选取啊。怎么样才能找到一个?比较好的学习率。对。
这个问题。然后嗯。但是还有一个问题就是说。这个这个现在这样讲可能不是特别直观啊,就是说呃对于图像比较崎岖的函数啊,尤是一种隧道型的曲面。其香烟好表现不好,为啥?就是你下山的时候有这样一种山,不太好下。
峡谷。说隧道可能不是特别的好。说那种倾斜的峡谷。更好一些。有这样一种事儿。他整体方向呢。是往这个方向下降。但是呢他是一个非常。抖着一个峡谷。个管子吧,还是说隧道比较好。
现不想大应该能看出来我的画的是什么东西。就是你可以想象一个滑梯啊,滑梯这个滑梯主要下降方向话面是这个。但如果你在这个点处求一个梯度的话。沿着哪方向下降最快呀?不是那个方向,是沿着。往右倾斜一点。
但主要是沿着这个。横向的。因为他是是他有这个。行。没异议。稍等这对,这主要下战方向呢是这个。向右的一个方。但是呢。😊,因为它这个滑梯啊,它还有这个。就是这个横向的这个方向。你在这点出发。
可沿着横向方向也可以想想。对吧而且这个方向呢更陡一些。所以当你算梯度的时候,他会告诉你这样走。就果你这样走了以后呢,又上去了你还得走回来,就你当然你也会往右一点点走,最后你的曲线什么呢?
最果你的你的行为曲线就变小。沿着这个方向上去。下来。上这来。再到那边去再过来。发过嚟。再过来。个就是你在来回来回震荡,整体上来说,最后你也往下走了,但是你要经过长时间的震荡。
最后你才真正的沿着主要的方向走。这是一个提度下降法不好的地方,因为它做的是局部估计。当你这个函数比较复杂的时候,它局部给你的信息不太准。啊,这样不好啊,这是一个气流向下滑表表现不佳的地方。
还有一个就是我们说这个学习率的问题,就是说你那个到底学习率选多大多少比较好。所以像这样的问题呢。哎,这个为什么不用留那么就不说了啊,那么这道题怎么办呢?我们他会要有一些改进的办法,一个是动量法啊。
我们就不仔细讲了。但是大家可以我们有公开课,这是免费的。所以这个大家回去在这个app上找一找,找到我们去年的这个嗯免费的这个论文班的公开课,有一节专门讲这个随机思下降法的各种变种的。
那里面我们很详细的讲了这些方法。动荡法主要是解决我们刚就是当然我这里可以给大家说一下这些方法是干什么。动量法主要解决我们刚才说的这个问题。这种隧道型的,它可以帮助你抵消这些来回震荡。
让你主要沿着主要工向去走。这とな。那。他具体的方法就是把你这更新函数这个迭代方式稍微改一点点就可以。你看这个来回震荡嘛,他把你震荡取消了,变成这个浪往前奏。多少法能够改进算法。
这化有缺点就是说它把你震荡取消了,主要沿着这个方向走。但是沿着主方向,它由于这个积累过剩,有的时候会过头。所以改进方法呢就是不但抵消震荡,还能够避免你走个头欧动。这种什么加速的。叫啥。是好一点。
就物理上就是我刚才说那个它避免走过头。那这个呢主要是为了解决这个曲面其实的问题。那还有一些问题呢,就是说呃你这有些细有些数据啊,你这个模型啊,它这个好多个参数。有些参数呢它很少被更新。
有些参数呢经常被更新。然后你那些很少被更新的参数呢,一旦得到有机会更新的时候,你应该应该让他多更新一点,你别让他因为本身他一共就没更新几次,你就得让他多更新几次,都你就每一次多更新一点。
就是说学习率度大一点,这样呢才能保证你这个能更新到比较好的位置啊,你经常被更新那些呢,你就说那你反正经常被更新嘛,那你也别更新太大了,你让他那个每次学习率小一点,这样可以更精确一点。这种事情。
你不太可能在训练之前就知道。你只能在训练的过程中才知道。所以你希望这个训练算法呀,它自动去探测这种事情,然后给你做一次适应。那这个方法呢就是在做这种事情。对于更新频繁的参数,采取较小的学习率。
更新不频繁的参数,采取较大的学习率。那它也就是。他用了一点这个现行代说术语,就是说嗯。他基本上就是说在更新过程中,他看看历史上这个这个参数被更新多少次,然后呢。
把这个更新的这个每次更新的权重呢给它偏方和加起来。那你更新次数越多,或者学习率呢就越小。然后学倒数反正更新次数少呢,或学习率呢就是更大。它用种自动的这种方。谁做这个事儿。然后又有改进的版本。
最后呢有一个方法,就是说结合动量法和这个这个这个呃学习率的自自更自适应的方法,把它放一起了。就既有这个呃动量法解决曲面比较崎岖的问题,又结合了这个呃更新率自适应的这个特点啊。
得到了一种比较好的气油下降化的变成。就是这个可能目前如果大家直接用的话,说你呃。盲目的来选一种哪个最好,可能就是这个。🤧这个挨的就化法最好。所以这个像这种东西啊。
在一般的机器学习的这个包里面都是有现成的。你不需要自己去这个写这个包写这个工具。比如说刚才我看了一些里面应该都能找到。我试一下。哦,这个也没有找到啊,这个回头我帮大家找找,这个应该都是有。See。
就说呃当你用的时候呢,你就可以。一般来讲,它会有一个优化的工具,然后那里边会让你选说你选用哪种方法,你就选一下就完了啊。好。那。对,就是究竟怎么选呢?就是说你需要知道他们该在在这个干什么。
动量法和这个主要是解决这个图像崎岖的问题啊,这个这两个呢主要解决学习率这个更新的问题。它呢集中两种做法优点。所以当你选的时候呢。你要判断一下你这个问题。如果你这个问题没有没有这个更新的问题。
你就直接选上面这就行,它可能更简单。呃,就是说。计算的负负担负担也更小。啊,如果要是你没有上面的个问题,你可以选这个。如果两个问题都有,那你就选这个几种。就这个意思。就为什么你需要知道他们在干什么?
就是你当你选择模型的时候,你可以选的更好一些。
人工智能—机器学习中的数学(七月在线出品) - P2:半小时梳理凸优化 - 七月在线-julyedu - BV1Vo4y1o7t1
🎼。好了,我们今天呢共同讨论一下凸优化方面的一些问题。我们主要是从突集凸函数、突优化这三个方面展开讨论。首先呢我们看一个有趣的一个问题,我们图上给出的是Y等X平方这么一个函数,这是一个凸函数。
那么这个凸函数位于红色曲线上方的这个区域,黄色的这个区域,它其实是一个凸极。把这个问题呃放大一点,就变成了凸函数的图像,它的上方区域一定是一个凸集。而一个函数,如果它的图像上方区域一是个凸集的话。
那么这个函数一定是一个凸函数。我们等会儿呢会给出这个表述的形式化定义。因此我们要想学习突优化,掌握考察凸函数,先要从凸集以及它的相关性质来开始着手。首先我们可以出凸集的定义。如果一个集合C。
它任意两点间的线段都在集合C里面,那么说这个集合C就是一个凸集。也就是说,任意的X1X2属于C。如果说西塔是从0到1的,是属于B区间的。那么说西塔X1加上一减西塔X2,如果一定在C里面。
那么说这个集合C就是一个凸极。事实上我们可以把这个XX2扩展到X1到XK它的写法是下面这种写法,它所表示数学含义,二者是等价的。好了,比如说一个任意的一个凸多边形,就是一个凸极,一条线段也是一个凸极。
但是我任意画一条扇形的曲线,它内部的位置它就不是一个凸极。比如说一个多边形,如果用一个矩形,如果说某一个边界部分它缺失了,这也不是一个凸级。好了,我们现在再给出超平面和半空间的概念。如果一个。
A是一个向量,A乘以X等于B。那么说这个表达的任意X,它就是一个超平面。如果将这里等号变成小于等于或者大于等于,它表示的就是这个超平面所确定的半空间。我们给出一个例子来,超平面在二位上其实就是一条直线。
那么说AX等于B表示一条直线。A其实就是它的法线方向。比如说我们将这个等号变成小于等于或者大于等于,因此就变成了位于法线方向的部分,或者是偏离法线另外一侧的方向的半空间。
我们利用超平面和半空间就能够定义多面体。如果给出AX小于等于B,并且CX等于D。那这样的话,满足条件的X组成的就是一个多面体。事实上,超平面直线射线线段半空间它们其实都是广义上的多面体。很显然。
多面体它其实是一个凸及。有些文献中呢把有界的多面体叫做多包形。比如我们给出一个时间的一个例子,这里有一条超平面,二位上就是条直线了。我们给出A一的这个反向。
那么说小于等于这条直线部分就是右下角右右下这部分给出A2这条直线,它的小于等于部分就是左下这一部分。任意条A3A4A5都是小于等于最后会得到一个多边形并且是一个凸的多边形,它就是一个多面体。
我们现在呢把重点放在保持凸性运算的各种算子上。首先刚才给触到集合交其实是一个饱突运算。当然怎么证明呢?定义就可以做到了。此外,仿射变换、透射变换、投射变换都是饱突运算。我们来看一下。这个就是给出的。
我在平面上任意的画出一些直线,也就是所谓的超平面。然后它的小于等于部分,最后的交集得到一个集合S,这个S它就是一个。凸的。集合它是一个宝突运算。第二,我们看一下仿射变换。
如果一个FX等于AX加上B的形式,注意A这里是个矩阵,X可能是一个N为的一个向量。那这样的话,这种线性的一个式子把它叫做仿射变换。这个仿射变换,它就是一个保突运算。换句话讲。
如果说定一个F这么一个映射FS是它的一个项,如果S是突级,那么FS一定是凸集。另外,如果FX这个项是它的凸级,那么原相S也一定是凸及,这是仿射变换。我们再看一下透射变换。
透视变换透视变换其实是将向量的最后一维变了一个伸缩,并且将它最后一位的分量为一并舍弃值,什么意思呢?比如说它是本来是从RN加一维的。然后ZT把Z的每一个分量都除以T,那么说前面的N维都做了一个伸缩。
而T呢最后舍弃掉,那么就从。N加一维变到了N维,这个叫做透视变换。其实类似于物理上的小孔成像。然后这个变换是保突的,也就是说一个凸级,它的透视变换显然仍然是一个凸级。当然留给大家一个思考题,反过来。
如果说一个集合的透视变换,它是一个突级的话,那么说这个集合是不是一定是突级呢?大家可以考思考一下。然后我们现在把刚才的透视变换和仿射变换作为一个组合,就变成了投射函数。
这个投射变换呢其实也就是所谓的线性的分式变换。它是这样子,就是说任意的一个。GX我们写成它的仿射函数,我们定义仿射函数GX是A,这是一个矩阵。C是一个列向量,然后乘以X加上B,这是D的形式。
那么说AX加上B,这本来这是一个仿射函数,然后除以CX加上D,这个是最后那一维变成一了,所以说这是一个透射函数和仿射函数的一个复合。这个复合函数,它仍然是一个投射呃,仍然是一个饱突运算叫做投射函数。
事实上,如果这个函数里面的C等于0,D大于零的话,这F就退化成了普通的一个仿射函数了。我们现在呢给出两个有意思的概念,第一个叫做分割超平面。如果说集合C和集合D,它们两个是不相交的突集。
那么说我们知道一定会存在一个超平面P,这个P可以将C和D分离。换句话讲,任意一个X属于C的话,我们都存在一个超平面P,也就是所谓的AX小于等于B,并且任意的一个X属于D的话。
AX大于等于B只要是一个C1个D都满足这两个性质。😊,当然这里多说一句上面的这个两这个式子呢是可以取等号的。也就是说它的逆命题,如果两个凸级C和D的分割超平面是存在的,那么说C和D不相交。
这句话是假命题。我们需要加强一下,就是如果两个突级至少有一个是开的,是开级,那么说当前紧张存在分割超平面的时候,它们是不相交的。呃,也就是说我们给出一个示例,B集合和C这个集合。
那么说一定存在至少有一个分割超平面,使得AX大于等于B,并且AX小于等于B。这个X分别取于D向的元素和C上元素的话,是满足这个条件的这是分割超平面一定存在的。
我们可以通过构造的方式来去一定程度的说明这个问题。比如说C和D都是初级,那么说我们定义这两个集合间元素的最短距离。就是两个集合的距离。假设我们找到这个最短距离,一个是小C,一个是小D组成的。
一定是最近的。那么说我们做小C小D这条线段的垂直平分线,那么说这个超平面一定可以将C和D分开。我们通过构造的方式来去一定程度说明这个问题。😊,下面呢我们给出支撑炒平面。
我们说一个集合CX0是这个C上的边界上的某一个点。如果说存在一个A是不等于零的,满足对于任意的一个X在C里面都有A乘以X去小于等于A乘以X0。那么说这个超平面AX等于AX0,就叫做集合C。
在点C处的一个支撑超平面。😊,也我们很显然的可以得到结论,一个凸极,它边际上任何一个点都存在一个支撑超平面。我们可以把它近似的先把它理解成为一个切切线,一定是它的一个支撑超平面。
当然反过来可不是这样子的。事实上这句话也有它的呃逆定力,加强一下就是正确的了。如果说一个B的非中空的一个集合,它的边界上的任何一个点都存在一个支撑超平面。那么说这个集合就是一个突集,任何一点都存在。
那么它就是一个突。这里呢我们通过刚才这两个概念做一点思考。首先我们。想一个问题,怎么样去定义两个集合的所谓最优的分割超平面呢?那么说我们可以这么来考虑,就是找出这个集合上边界上的若干个点。
然后以这些点为基础,我们去计算超平面的一个方向。然后呢,两个集合边界上这些点的平均作为这个超平面的截距。那么说我们就得到一个所谓最优分割超平面。另外,如果说这两个集合,如果它们有部分相交。
又如何去定义超平面,使得这两个集合尽量的分开呢?这个呢我们在知识相量机部分会给大家做一个详细的解释。好了,我们给出了凸函数以及它的相关的性质。下面呢我们看一下呃给出了凸集的。我们现在呢看一下凸函数。
如果说一个凸一个函数F,它的定义域是一个凸集,并且满足对于任意的XY是属于这个定义域的。给定一个西塔是从0到1的,一定有F西塔X加上一减西塔Y,这个值是小于等于西塔FX加上一减西塔FY的。换句话讲。
任意给出两个点X和Y的话,它们的割线是位于这个函数曲线的上方。那么说这个就是一个凸函数。那么说我们现在如果说这个F是一阶可微的呢?😊,那么说这个函数F是凸函数的话,当且紧张F的定义域本身是凸集。
并且对于任意的XY的话都属于定义域的话,FY是大于等于FX加上F在X这一点处的导数,或者是它的梯度乘以Y减X这么一个值。把这个数学式子画在函数图像上,我们任意给出X和FX这一点。
给出FX加上梯度乘以Y减X,也就是这条红线。我们发现FY其实是这个函数的曲线。后面这个其实是在这一点处,这个函数的分支撑超平面。换句话讲是在二位上就是一个直线切线,那么说这其实是给出了一个对于凸函数。
它的一阶抬到近似本质上就是一个该函数的全局下估计。看其实这右侧部分其实就是他要展示的一阶下一阶部分。那么说这个一阶部分,那么说一定是整个函数的一个一阶的一个下全局下估计。
一定是位于它的下方的这是一个非常好的一个认识。我们事实上可以结合凸函数的图像和支撑超平面来理解这个问题。反之,如果一个函数它在一阶抬了近4,总是全局下估计的话,那么说这个函数就一定是一个凸函数。
这个不等式其实说明了一个函数的局部信息,我们就可以通过这个局部信息来一定程度的掌握它的全局信息。这是凸函数非常好的一个性质。此外,如果一个函数F它是二阶可维呢。
那么说我们就会求它的二阶导数或者是二阶的haen矩阵。那么说如果是一元函数,这这样的就是一个二阶导数,二阶导数大于等于零或者是多元函数,它的二阶的hen矩阵是半正定的。那么说就和F是凸函数是等价的命题。
😊,然后下面我们给出了凸函数的若干的例子,这是我们一些常见的凸函数的一个实际的一个函数的定义。下面给出有意思一个概念叫做上镜图。一个函数FFX其实给定的是一个函数F的图像。
那么说我把这个FX给定它小于等于TT取任意值的话,那这样的话,这个函数图像其实是函数图像的上方部分,我们把它叫做函数F的上镜图。那么说我们知道一个函数,它如果是凸函数的话,当且仅当这个上镜图是凸级。
事实上,这是我们最开始给出那个例子,我们通过定义就能够非常方便的证明出来了。进一步考察一个函数,如果是凹函数,当前紧张它的压图使它的突及。好了,我们利用凸函数呢其实非常重要的。
我们要考察一下啊jason不等式。呃,下面的不等式假设F是一个凸函数。那么说显然F西塔X加上一减西塔Y是小于等于西塔FX加上一减西塔乘以FY的这其实是它定义了。
那么说我们可以把这个西塔从两个值变成K的值也是成立的。我们可以把这个西塔从离散的值变成连续的值仍然是成立的。所以就从这个离散形式,变成了积分形式。事实上,如果说F是一个凸函数的话。
那么说对X求期望再取函数再取函数值是小于等于这个函数值再取期望的。我们通过这个式子就能够定去证明出来,任意的两个。😊,手机变量P和Q它的相对商D的定义是这样子的。
那么说把它非常方便的利用刚才这个式子就能求出这个式子,这个定义一定是大于等于零的。实实上我们呃通过Y等于负的log X,这个其实是一个凸函数。那么说我们取任意的A一和B都大于0,西塔取0。
5代入这个凸函数和的这不等式代入这个式子。那么说我们就非常方便能够证明出来A和B如果都是正数的话,那么说A和B的平几何平均数呃,算术平均数大于等于他们的几何平均数。
所以说这个不等式是几乎所有不等式的一个基础,我们都可以去构造相应的合适的一个凸函数,以及合适的一个C代值,证明很多很多的不等式。下面把重点放在保持函数突性的那些算子上。我们可以发现。
如果说F1F2到FN它是凸函数的话,欧米伽我们取做呃欧米一到欧米根取做大于等于零的。那么说得到的函数FX它就是一个凸函数,也就是凸函数的非负加强和是一个凸函数。另外,如果F是一个凸函数。
那么说把这个凸函数和仿射函数AX加上B作为一个复合,得到GX仍然是一个凸函数。更重要的,我们考察一下,如果FFF1XF2X到FNX都是凸函数,那么它们取最大值得到的FX是一个凸函数。
我们把它这种求最大值叫做主点,求最大。另外一种呢,如果说这里F1到FN是一个连续状态的话,就是对GFX取对任意的Y在定义域上的一个上确界主点求上确界也是一个凸函数。
我们呢把这个通过F1F2的事情呢做一个简单的一个介绍。如果F1F2是凸函数,我们定义一个函数F,这个F叫做maxF1F2。那么说我们下面证明这个函数F一定是一个凸函数。通过定义就很方便的被证明了。
任意给出一个西塔,然后X和YF西塔X加上一键西塔Y,我们根据定义可以写成分别式子求max。😊,而我们再根据。呃,这里面每一个式子都可以是凸函数,所以把它拿开,这是小于等于的。
这两个式子的西塔取值一般来讲不是取相同的值达的最大。所以说如果说西塔左边这个式子西塔和右边西塔取相同值最大的话,那么说我们这里边可以把西塔拿出来,因此这是一个小于等于符号。
西塔 max它加上一减西塔这个塔。然后而这个式子就是它的定义,所以这就是这个式子。所以说我们就可能证明出来F西塔 X加上一减西塔Y是小于等于西塔FX加上一减西塔FY的,这就是我们证明的F。
它是不是一个凸函数。😊,当然我们很可很方便可以把这个式子写成12到K的形式。也就是说,凸函数的主点求最大值仍然是一个凸函数,这个定义非常重要。事实上,一系列函数我主点求上确界或者说主点求最大值。
它们所对应的其实是这些函数的上镜图的交集。这是一个非常好的两个式子的对应。给出一个直观的例子来,我们在一个平面上去任意的去画出N条直线。事实上直线是凸的。当然我们知道直线也是凹的。
但是我们这里就认为直线是凸的。那么说在任意点处,我们求它的主点求最大这个红线部分,那么说这个函数一定是一个凸的。😊,当然,如果说可任意画直线,那么说主眼球它的下界的话,那么说这就是一个凹的这个结论呢。
我们等会儿在拉格朗日的对偶函数里面还会用到。下面呢我们给出突优化以及相应的解决方案。初化呢先给出一个一般形式意义上的优化问题。它的一般形式是最小化F0X这个X是属于RN的这里呢有M个。
不等式约数和P个等式约数。这里面呢如果说M和P都是零的话,显然这是一个无约无约束的一个优化问题。我们给出一些基本的一些概念。首先,F和H它们的定义域的交集,我们认为是这个优化问题的域。
如果说一个点它在这个域上,并且是满足约束条件的话,我们把这个点认为叫可行点。这些可行点的集合组成了可行域。那么说如果说对于F0X对所有的满足条件的值,求它的下学界的话。
这其实就是我们要做的那个最优化的那个值。满等于最优化值的那个X取值,把它叫做最优化的解,这是基本的一些定义。然后我们下面如果说对于刚才那个一般性性化问题的话,要求F0和FI都是凸函数。
换成了I从小于等于0到I从大于等于0到小于等于M都是凸函数。并且HJX这个J是从一到P的。都是仿射函数的话,那么说这个问题就从一般性优化变成了一个突优化问题。显然,突优化问题它的要求还是很严格的。呃。
但是图步化它的好处是可行域是一个突级,它的局部的最优解一定是我们的全局最优解。下面呢我们把目光放在一个一般性的优化问题上。我们去优化1个F0X,这里面要求FIX是小于等于0的HJX是等于零的。
当然这里我们没有要求它是一个凸的函数。我们把这个函数呃做兰mb姆da和new做成增加若干个橙子,写成一个兰格朗的函数,写成这样的形式。这是关于X lamb姆da和new的一个函数。
下面我们考察这个这个函数本身,这个注意,如果将右侧这个函数看作是关于兰姆da的一个函数呢。我们发现关于lambda的函数,这个是关于lammbda的一个。嗯,一次项一次。呃,系数部分。
然后F0X和newHX是关于lammbda的常数项部分。因此这个函数是关于la姆da的仿射函数,同理也是关于new的仿射函数。那么说这个X其实是对于任意的一个值。
那么说我们对这个仿射函数逐点去求它的下确界。那么说这个函数根据刚才我们画了一条若干直线求下确界,因此这个函数是关于兰姆da和new的O函数。当然这里面要做一个trick,就是如果说没有下学界的话。
定义它是负务熊大。这样的话我们就完成了对偶函数一个非常重要的认识。这个对偶函数是一个凹函数。当然我们给你定义,因为对于任意的lam姆da大于等于0。任意的一个new的话。
原问题的这个最优解P星这个P星的值是某一个值,而G lamb姆da nu是它的下确界,所以下确界的值一定是小于等于这个P星的,这是很显然的一个问题。因为G函数本身是下确界嘛。好了。
下面其实我们关注重点是我们如果说这个不等式能够起等号呢?这样的话,我们就去解关于G的这个函数。这样的话求它的最大值就一定可以取得等号,求得最优值。别忘了,关于G的函数是一个凹函数。
负的G就是一个凸函数啊。因此我们就把一个任意的一个一般性的句化问题。转化成了一个凸函数的求机值问题。好了,对是刚才那个式呢,我们给出一个形式化的一个数据化的一个实例。这里面呢这个虚线的这条线。
这是一个不等式的一个约束。这是FFEX,我们让它小于等于0,因此这里面零是在这儿,所以说它的域部分只有从红线这小点是它的可行域。😊,然后对于黑色的这条线是我们要求的这个函数。
在满足这个小于等于零这个条件下求它的最小值。当然我们从图上非常清楚能看到,最小值其实在这个黑点处。怎么做呢?具体的我们可以lammbda取一个0。1,这个黑色部分加上0。
1倍的虚线部分得到的其实是这个后跟着最近的这个这个点状线这个部分。因此这个线我们总能求出这个点给出lameven0。1的时候,它的一个Glammbda的值。那么说。给定lam姆等于0。1。
给出一个值G兰姆的值可以求出来,给定lam姆da等于0。2,又能求出一个值来,给定lam姆等于一,又求出一个值来。所以说我们能画出G兰姆达这么一条。曲线来这一条曲线其实就是关于原函数的一个对偶函数。
这个对偶函数我们总可以发现它其实是一个奥函数。我们可以取它的一个极值是在这儿。当然对于这种一般性的问题的话,这个值最小值其实应该是虚线这么一个高度。我们求得的这个对偶值,其实略小于它不是等于的。
但是呢我们给出一个呃解释来,为什么往往取不到等号呢?下面呢为了表述方便呢,我们没有做等式约数,只考虑不等式约束,实际上非常方便能够扩展到等式约数的。
这里我们还是看关于LX lamb姆da就可以写成F0X加上La姆daFX从I从1到M的。这里面如果说这个X某一个X零值,它是不可行的。换句话讲,我们存在某一些I值使得这个FIX是大于零的。
因为如果可行的话,一定是小于等于零是我们的满足条件嘛。这里如果说FIX是大于零的。那么说我们就选择兰姆daI是趋近无穷大,那么说这个时候这个式子就发生了无穷大了。😊,如果说对于某一个X0是可行的。
换句话,这个所有的这个FIX都是小于等0都是都是满足条件的。那么说这个时候的I我们可以取作零,这个时候就把这个值的上界就变成了F0X。因此,兰姆daX lamb姆da。😊。
这个LX lambmbda这个对偶函数对于它取 lambmbda的上界的话,这个时候对应的其实就是原问题的FX。呃,而原问题是FX求它下界呀,这是我们的要求嘛。
因此我们原问题的本质就是对偶函数LX lamb姆da对 lamb姆da求上界,再对X求它的下界。而我们真正做的事情是对于这个呃对偶函数LX lamb姆da先求它的下界。我们得到一个关于这个。后面这部分。
其实我们得到的是关于lambda的一个O函数。我们在着这个凹函数求它的上界,这个时候得到的我们求的是右侧是下面这个值。事实上,这个值一定是小于等于圆的这个值的,为什么呢?
我们把这个上下界的这个表示符号变成mem的形式,等大家看的更清楚一点。我们知道任何一个函数FX总有这样一个式子发生。为什么呢?我们。简单看一下,对于任意一个XY属于定域的话。
首先FX总是小于等于maxFmax FXFXY嘛,对吧?因为我们在右侧取关于X的max,那么说一定是小于等于的。这样子我们看发现右侧这个函数其实已经是关于Y的一个函数了,对吧?
关于Y的这个函数是大于等于这边这个关于Y的函数。因此那么说这里边都取关于Y的最小值不等号方向不变,因此都取一个命Y,那么说还是小于等于。这时候我们再次发现右侧这一部分FXY已经关于X关于Y都取一个值。
因此右面这个值是一个定值,左侧这个值是关于X的一个函数。关于X这个函数是小于等于某一个定值的。所以说那么说这个函数最大值也是小于等于这个定值的,因此我们就证明出来,原来这个式子是小于等于的。换句话讲。
这个对偶问题求的解一定是小于等于我们的最优解的这个值的。😊,好了,我们现在呢给出一个实际的例子去算一下,用对偶问题去解决实践中的一个最小二成。比如说任意的给定一个X这个向量,这个向量呢满足AX等于B。
我们就求下X和X点乘它们的最小值是什么。很显然,它的拉斐的函数就是X加上缪。因为只有等式约数,我们有不等式约数就变成了X和X加上缪乘以AX减B。那么说我们求出它的对偶函数计U来,再求这个计牛,它的极值。
我们就去看一下这个极值和原始值是不是能够相等。我们看一下它的具体做法。首先我们把这个呃拉朗的函数LX牛等于这个式子,关于X求偏导会得到2X加上A牛,我们利用这个值等于0。
那么说这个X星这个最优值可以写成-2分之1A乘以牛的形式。而这个式子里面是X是关于牛的一个未知的一个一个式子,把这个最优值带到这个原函这个原始的这个对偶函数里面去。
那么说把LX牛就可以把它通过整理就变成一个关于牛的一个函数,这个函数,我们把它定义做G牛,这就是它的对偶函数。求出来记牛这个函数,而这个函数我们总可以求它的极大值。因为这个函数实实上一定是一个凹函数。
对你刚才我们的论述,因为这是一个关于new函数。它的关于X,我们会是逐点求极大嘛,所以说它一定是一个凹函数。那么说这里面G对这个G取关于妞的偏导,得到这样一个式子,利用这个式子通过若干的整理。
最后会得到X星等于这个值。而这个值的最终结果,A的转制乘以X的转负1次方呃,它的逆乘以XA的转制再乘以B。这个就是我们在呃。在线性回归或者是其他些相关内容里得到的最优质的那个结论。因此。
通过这个可以发现。呃,最小二成问题通过凸优化,它的结论是完全一致的。换句话讲,线性回归问题具有强对偶性。下面呢我们最后看一下如何能够给出强对偶性它的条件。如果说我们对偶函数最大值是原问题的一个最小值。
那么说我们考察需要满足什么条件呢?也就是X星,它的F0XX星是等于G兰姆da星缪星的这个式子我们做一个变换。首先,G兰姆da new这个根据定义是它的一个下确界。而这是一个下切界。
一定是小于等于这个函数本身的。而这个注意FIX是小于等于零的。HIX是等于0的,今然HIX1定等于0,所以第三个这个加号符号里面全是零没有了。FX这个里面这个只是小于等于零的。
我们要求兰da是大于等于零的。因此这个值一定是一个非正数,一个值加上一个非正数,再加上一个零,所以说一定小于这个值本身这是我们得到了一些式子,如果要求他们取等号的话,那么说第一个不等号一定要取等号。
第二个也要取等号,我们先分析第二个。😊,这里面如果要第二取等号的话,首先满足我们的约束条件。FIX是小于等于0的HIX是等于零的。再还能满足兰姆da乘以FX,这个值本身一定要是非正,所以一定要等于0。
它才有可能满足这个式子。因此刚才那个式子FIX小于等于0HX等于0,这是约数条件。这里面兰姆daF它一定要等于0。并且这里面如果它等于零的话,我们可以推到兰姆daIX我们要求它大于等于0。此外呢。
如果要求第一个不等号是取等式的话,那么说这个X星一定要是这个函数,它的注点。换句话讲,这个函数关于X就偏等一定等于0,也就是最后这个式子。把上面这些式子罗列到一起,就形成了著名的KKT条件。
这就是关于凸函数,它的能够取强对偶性条件的一个结论。好了,上面呢就是从最开始的凸集到凸函数。最后我们给出凸优化的一个结论以及强度条件。它的要求。呃,参考文献呢主要是关于凸优化这本书,以及它相应的中印版。
好了,这就是关于上面主要内容有什么不对的地方的,欢迎大家批评指正。好,谢谢。
人工智能—机器学习中的数学(七月在线出品) - P3:概率计算与拒绝采样 - 七月在线-julyedu - BV1Vo4y1o7t1
呃,这个呢是咱上一次跟大家留的一个思考题,不知道大家这个思考了没有哈,我们来共同的看一下哈,简单看一下,就是我们假定哈AB两个国家。这两个国家的元首呢相约在首都机场晚上8点到晚上的0点交换一份文件。呃。
我们现在有一个规定啊,就是说如果是这个A国的飞机,如果他先到了,那么说A呢它会先等待一个小时等B哈,它会等一个小时。如果在这段时间以内B任何一个时间到了,他们这就是可以正常交换的。
此外呢就是如果是B这个飞机先到了,B呢会等待两个小时,这是两个小时。然后A如果在中间任何一个位置到了,他们就是可以交换的。然后呢,我们假定两架飞机是从晚上的8点到晚上的0点。
降落在机场的概率是均匀分布的。也就是在这4个小时以内是均匀分布的那这样的话呃。我们想让大家算一下。两个国家的元首能够正常的在晚上的20点到24点完成文件交换的概率。我们现在做一个小的trick。
就是假定说呃交换文件本身不需要时间哈。这个问题其实场景非常多。比如说我们如果把AB两个国家的元首换成呃一男一女两个人做优会,其实一样的东西,对吧?也就是两个人是否能够碰面的问题,本质是这样一个东西哈。
但是我们要求的是在20点到24点这个要见面哈。呃,这个题目呢咱其实可以正常的去用呃分段积分的方式去做。另外呢我们可以去用几何概型的方式画一个图出来,比如说我们假定A到达的时刻叫XB到达时刻叫Y。
那这样的话,因为是X,如果是这个X先到Y后到的话,A不是能等一个小时吗?对吧?那这样Y减X如果是从0到1的那么说二的就是可以进行文件交换的或者X减Y是从0到2的也是可以进行文件交换的对吧?
而同时呢X跟Y都要是从20到14的这是它的基本的这个。
那个那个基本实践对吧?但是呢呃因为这个里边0呃20到24哈,其实系数都是一嘛,所以说我们可以说把它画到0到4上画图好画而已哈。这样子我们就得到这样一个图哈,就说呃把这个X画到横横坐标,把Y放到纵坐标哈。
显然Y等于X是这个紫色的,它让我们画出的一个是Y减X等于一这么一个线,就是Y等于X加一,对吧?因此是这样一条绿色的线,Y等于X减2是这样一条紫色的呃一条棕色的线,那么说这一部分阴影面积的区域。
就是能够正常在零点到4点,或者是从20点到24点,能够完成文件交换的这个。
嗯。嗯。嗯,稍等哈,我我看一下哈。是的,没错,对吧?就是能够硬应影面积,就是能够文件交换的一个呃面积,而总共的这个矩形面积是我们的总的事件,对吧?体形面积很容易算4乘4嘛。
这个两部分面积当然你可以正常算了,另外你可以算两个白的这个三角形的面积,然后把三角面积求出来,然后用左面一减也可以,对吧?这样子就能算出来这个最终概率哈。嗯,好的哈,这个这样问题大家看有有问题吗?😊。
呃,等于说小于大于的方向是不是写反了。
呃,这个是吗?呃,我们看一下哈,应该是没写反哈。就是说呃你看哈,如果说A先到达。B后到达的话,我们说那显然A是X,B是Y,那显然Y要大于X,对吧?Y减X只要这一段它是比一要小的就行。
对吧所以他只要小于一就可以,应该是没有写反哈。对吧。嗯。X大于20小于24,Y大于20小于24。啊,是的是的是的是的是的是的是的,就是这个地方我抄错了是吧?是的是的是的。
就是这个等因是X小于20到24哈。是的,多谢哈,这这个这这个写错了哈,这个本来是这我复制过来哈,这个我不知道怎么编辑的,写错了哈。是的是的是的,OK其他问题吗?是的这个写错了啊。😊。
呃。这个其他地方还有问题吗?就这个题目本身呢,还有一些其他或者是我写错的地方。如果月儿问那个事情哈,你是姓米吗?如果不用这个图形算面积,那么说我们就只能正常的进行积分。比如说我们从这儿截开。
这个问题问的非常好哈,就是芈月呃月儿问的这个问题非常好哈。就是说我们如果是不去这个用面积做呃,用面积做,而是正常的积分怎么办呢?只能分情况讨论。就是如果说这个。呃,X呃A这么一个人。
他是从20点到23点,他呃到的。那么说其实任何一个点到的哈,那么说他不等一个小时吗?这一个小时之内,他只要是Y能够到达,就B能到达都是可以的。但是如果说这个X这个A这个飞机,它是从23点到24点降落的。
比如在这儿降落的那么说它就不能等待一个小时了,它只能等待假如这个X啊只能等待4减去X这么长个时间,然后等待Y是不是能够到达,它能到达的话,OK他们是能够在20点2到24点进行这个文件交换的,否则就不行。
只能这样分情况好论哈。这是一种方案。我不知道这样讲,这个呃月儿清楚了吗?因为我觉得其他朋友应该也有这个疑问,对不对?这个有个假设,两个人的行动是相互独立的。是的哈。
就是说这里边我们是假定了这个两架飞机从20点到24点都是均匀分布的,降落在这里边的,对吧?他们都是均匀分布的对吧?然后才能够做这个事情哈,如果不是均匀的那很显然,这么一个图,假定说这边权重高。
这边权重低,那你就不能直接去这么做了,对不对?所以说我们这里边假定了均匀分布,所以才能够这么做哈。😊。
嗯,OK哈,这个问题其实值得思考哈,这个应该是今年啊是2015年阿里的一个面试题。我只是把这个机场的名字改一下而已哈。
好的,呃,我们现在呢来琢磨第二个事情,这个是我们上次的第二个思考题,对吧?我稍微的改了一下。就是我们现在这么来想,看起来这个题跟咱上次留的那个思考题,第二个思考题完全不一样,本质是一个问题哈。
我们现在假定有一个rund7这么一个函数。他呢是能够均匀的来返回1到7这7个自然数的。比方说它返回一的概率是7分之1,返回5的概率还是7分之1这个事情哈。
然后呢呃我们现在是想让大家利用rund7这么一个函数来构造一个rund10这么一个函数。😊,run10随机的去返回1到10。对吧是么个东西啊。如果说这个作用不是ro7,而是ro5的话。
大家似乎还是好办一点,对吧?run5如果反回1到5的话,咱两次调用就是了。但是如果这个里边呃出现了run7这么一个事情哈。然后哦那个我忘了是阿里的什么职位了。呃,好像是我我确实忘了哈。
不知道是是是算法类的,还是去学习类的,还是哪一个哪个类的,我确实忘了。呃,因为我们我大概只是总结过这个面试题,具哪个职位,确实忘了哈。大家可以看一下哈。😊,OK罗潇给出了一个非常好的思路哈。
就是rund7加run7再减去4,这样不就可以了吗?对吧?因为rund7加上red7,它是返回从1到14的,对不对?那这样的话我。如果发现返回值是111213或者是14的时候,我就把它给扔了,不要了。
然后呢,这个如果返回正常的从一到10的某一些数,我就正常的返回它不就可以了吗?对吧这是一个。解法,但这个解法是不对的,一定要注意是不对的。因为原始的1到7,它是一个这个均匀分布,对吧?
但是我们举个简单例子哈。你比方说如果咱不用1到7哈,咱用如果一个正常的一个函数,它返回12这两两个两个数都是0。5的概率返回。很正常吧,对吧?那么说把这两个是加起来再除以2的话,它会多一个。
它会它它本来是这样子的,他弄完之后就这个样子了,对吧?它其实会最终的会导向正态分布,还记得吗?我们等会儿会看的这个例子哈,所以他直接加是不合理的哈。那么怎么办呢?😊,乘是可以的。因为呃两个概率。
如果我们认为是两个一个函数是掉一次,再调一次,它是两个,我们认为是独立事件的话,对吧?那么说返回一个假的时候我们这么来考察哈,第一次它能返回从1到7的某一个数,第二次返回1到7的某一个数,对吧?
那这样的话,其实第一次的东西我们放在个位上,第二次我们放在10位上,相当于我们构造了一个7进制的一个数,对吧?总之它返回的是从1到49,对吧?那这样的话,既然是从1到49这么多个数。
我们就把最高的那个41到49,那9个全扔了,不要了,然后呢,我们只保留1到40除以4就够了嘛,对吧?实际中呢我们可能用这个1到7哈,我们用0到6来表达。这样的话符合咱编程的习惯哈,如此而已。
所以也是这么来做的,就让的7减去一这个A一是从0到6的raner7减1A2是。
0到6的这样的话呢,我们这个R7倍的A1加A2其实是0到48的对吧?这么一个数,如果说这个R比40大了,它是从40到48的某一个数,我们直接扔了,不要了。然后剩下的从0到40这个部分。
它其实均匀的OK那这样的话,R除以4,这样的返回的是0到9,加个1不就是1到10了吗?对吧是这么来做的哈,这种做法非常有趣哈。这种做法其实是我。呃,用了一部分而扔掉一部分做的,它其实是能够保证均匀的。
这个例子其实大家早就用过,只不过我们从来没有这么提取这么正常的说过哈呃,等号有问题留一留一句就行啊,重要事情不用说三遍啊,然后这样哈就是说呃大家其实怎么用过呢?你比方说这个事情。
你比方说我们这里边有一个单位圆,假定说这个圆不画的不圆了哈,假定是个单位圆。然后呢,我们怎么做呢?我们在这里面做一个外接的正方形。然后呢,我们就往里面去随便的去投针,对吧?随机的去扔这个扔点。
然后呢扔完若根点,比如说扔了大N个点,我数一下这个圆以内的有多个点,假设这个小N个点,小N除以大N这个值,我就认为是圆的面积除以矩形的这个面积。对吧跟这个其实一样哈。
咱这个里边是给定的这个范围是从0到48的这么49个数。然后呢,你随机的去扔,选择一个数出来,任何一个数都是等概率的对吧?因为我们的任何一个run7到减一它是等概率的嘛,两个也是等概率的那么说我们扔掉高。
高边这一部分底下这个仍然是等概率的呀。对吧其实是一样的哈。是的。没错,就是富利邓说的非常漂亮哈。这个东西就是咱后面要说的蒙特卡洛的呃那个。马尔科夫恋的蒙特卡罗模尼哈。呃。
这是一个非常重要的一个抽样采样方法。其实对吧?只是咱今天呢先跟大家聊简单的说一说这个事情哈。嗯,好的,这个事情大家看还有问题吗?可是A2那里不是加起来吗?哦,不这两个是乘的哈。
就是不是我这个地方不是加的。因为这个A1它其实是返回0到6,呃,反正我们认为A1是0到6,A2是0到6,对吧?那这样我把这个A一放到高位上去了,乘以7了。A2放到低位上去的。
所以这么一个值是能够保证均匀的去返回0到48的。对吧。就是一个是横向的,一个是纵向的,这边有7种情况,这边有7种情况。那么说这每个格子上一共有49个点,也是均匀分布的嘛,这很正常嘛,对吧?
1个X1个Y嘛,这是可以的对吧?这本质上就是一个这是A个X,这是一个Y嘛,对吧?其实是一个一个东西哈,只不过咱把这一个数压缩到两个两个坐标,A1A2压缩到一个坐标上去而已哈。嗯。41后面是均匀的。
但是呢因为41到49不是1的整数倍,我们没办法让它通过折叠的方式变成整数倍,所以我们就只能扔掉它了。呃,当然你可以怎么干呢?你可以把这个40变成30。把这个四改成3。仍然能够满足我们的提议。
就是随机的返回从1到10的某一个数。只不过呢如果是改成30的话,那么说你这一共有49个数,对吧?其实你只要了其中的30个是有可能的。我如果是变成正原来那个40情况是一共40种是要的。
最终是有49个可能的数。所以说如果是第一种呢,咱的原咱的情况的话是大概我的接受率是49分之40。如果改成30的话,接受率就降低了。那么说你这个well循环执行次数,它的期望就变高了而已,对吧?这样的话。
49除以40,大概是一点几次,这个也是一点几,一点几比较大一点。如此而已哈。嗯。如果A一直接乘以A2是不可以的。呃,A一如果是我看一下哈。稍等哈,就是负利正是不是那个事情是吧?呃,A一是0到。呃。
A1是0到6的,A2是0到6的,那么他们直接乘完就是到36的。对吧那这样的话,其实素数全部都不可能被取到,嗯,有可能被取到,但是它只有一种它只有可能性只有很少,他取一,他取素数,他取一,他取素数对吧?
其他种情况,你比方说这里边好多数其实不一定能取到吧。对吧它不均匀,对吧?嗯。乘以7真的是均匀的。因为。
OK我们重新说一下吧。我们这么这么讲哈,A一它返回的,其实我们认为这里边这个这个这个这个这个山格横向是有7个。纵向是有7个,然后呢,我们怎么选呢?我们这里边A1,我们随机的横向选择1个A1。
纵向的选择1个A2OK这个A1A2对应的这个值,这个值我们记做R,这个R怎么来的呢?就是这个记做第零号,这个叫第一号,这个叫第二号,这个值R值本身就是这么算出来的,这么解释可以吧。
这样解释大家大家认了吧。是不是?😊,OK哈。😊,呃,好的,这样大家应该是能够。接接接受这种这种思想了是吧?好的哈,其实本质就是我取一部分,扔一部分而已哈。😊,呃,哦,那能不能这样判断对A一判断。
若A一小于4则A2的值直接给R。若A一大于4,则A2加7负值给C判断C小于11则输出给R。呃呃,这是在说什么?呃,这样吧,就是许许消。许消哲哈呃,这个我我没太一下子反不过来哈,咱咱在课间的时候。
咱来讨论一下这个刚才这个许消哲给的这个思路哈,就是A一和A2小于4大于4,如何判断哈,我我。咱等会再再再课间再再解决这个事情哈。😊,好的哈呃。😊。
我们现在呢开始今天的关于事件独立相关它的统计量方面的一些事情的一探讨哈。我们简单的看一下,就是说如果正常而言,给定A和B是两个事件。如果说A和B的联合概率等于各自的边缘概率的乘积。
那么这个时候我们就把A和B认为是相互独立的。这个概念是很清晰的对吧?那么说因为我们知道条件概率这么个东西,那么说呃PA givenB这么一个东西,它什么意思呢?它其实可以写成P我们用条件概率公式哈。
其实可以写成上边是PA。B然后下面其实是PB对吧?然后呢,我们这里边如果是PAB等于PA乘PB的话,这个PB和这个PB消掉了,就剩下PA了。因此得到它,对不对?所以说如果有他们独立的时候。
一定有这个式子发生。这个事的发生什么意思呢?就意味着我A本身要想发生。这是右边这个情况,或者是我在B发生的时候,我再看A能不能发生。
O这两种情况他们是相等的那你相当于你给了我这个B这个条件对A不会产生任何的影响。所以说这个A和B就是独立的。对吧所以说这个公式的这个写法啊是可以解释的。为什么我们会这么来去定义相互的独立,对吧?
另外呢就是说虽然这个式子写的是很直接了哈,但是我们实践当中往往不是这么来算的来做的,往往是根据两个事件是否相互影响来判断它是否独立的。比如说咱刚才那个例子。
两个人这个互相的这个能不能在20点2到24点进行这个通信。因为他们各自都是进行的这个均匀分布,从20点到24点进行去降落的。那么说他们两个人之间,我们认为就是独立的。
对吧比如说我们给着大家随便给你了M个样本。如果没有给任何条件,我们就可以假定这M个样本是独立的。我们如果在一个系统里面随机的就是进行若干次采样。
如果我没有严格的去区分这次采样跟下次采样之间有什么样的关系的话,我们认为两次采样之间可以认为是独立的。这是关于独立的使用哈。当然这个公式本身是一定的条件。
但实践当中我们往往是通过社会化的这种意义来去解释它是独立的。大家知道这回事就好了哈。另外呢就是我想让大家思考一个问题,就是你能不能做一个定义,就是所谓的A和B这两个事件相互包含的信息量。这么一个概念。
就是说A讲的是个事件,B是个事件,他们两个相互包含着这个信息量,有点像交集的感觉,对不对?他们的一共同包含这个信息量,我假设定义做IAB。那么说对吧?我们现在想让大家思考一下什么呢?
就是我们想让大家想想。你定义的这个给出来这个定义哈。如果说A和B是独立的时候,我想让这个它的信息量为0,这种定义是对的吧。这种定义是很正常的吧。那么说我们想这么这么干哈。
OK这个刚才DDT和罗潇分别给出了两个非常好的说法哈。我们先看这个罗骁说的哈,就说我们直接就把这个A和B他们之间的这个信息量定义做PA。呃,我讲一下哈。
我们直接定义做PA减去PA givenB不就可以了吗?
这似乎是一种定义,对吧?这种定义呢没问题哈,这其实我们也许会这么来做。有一个小小的问题,就是它不对称。就是那我既然可以定义成PA减去PA givenB,我能不能写成PB减去P呃B givenA呀?
对吧或者是我写成PA减去PAB givenA呀,对吧?呃,它就或多或少的有点困难是吧?当然这个当然这种定义方式没问题哈,这可以做的哈。呃,甚至我们可以反向做,就是正常而言。
PA givenB的概率是要大于等于这个PA的,所以说我们可以用PA给为B减去PA一定程度的来度量这个结论,没有问题哈,真的没有问题哈。它唯一的不太好的地方,仅仅是因为它不对称,但是不对称没关系哈。
不对称,不是不是主要的哈,对吧?另外呢这里边如果我们想去呃另外一个思考方式的话,我们可以这么来想哈。因为你不是让我他们的东西等于一等于0吗?既然PA givenB等于PA。
那其实PA givenB除以PA就等于一嘛,对吧?既然它们相除是等于一,这个一想让它等于0,那显然我这儿如果取个对数不就够了吗?那这取个对数嘞,就是这样一个东西,就是这个东西取个对数。对吧或许是可以的。
当然我们需要对它进行改造,对吧?大家可以对它先有一有一个直观上的一个想法哈,我们最大商模型再去探讨这个事情哈。呃,刚才罗潇说的没问题哈。呃,这个东西其实跟信息增益这个东西是有很大的关系的。
本质上就是一个东。
人工智能—机器学习中的数学(七月在线出品) - P4:概率论基础 - 七月在线-julyedu - BV1Vo4y1o7t1
🎼,那咱跟大家聊一聊概率论,这是一个非常非常重要的概念。我们现在呢先说一个概率的基本认识。如果一个事件X它发生的可能情况。是一定会发生,我们记做一一定不会发生记做零。
因此这么一个东西可以看作是关于X的一个函数,这就是一个概率。对吧这就是所以PX这个概率值啊一定是从0到1的,可以取零,可以取1。但是要注意的是。反过来。因为如果一个事件一定不发生。
这个事件的它的产生概率一定是0,这句话没错。反过来,如果一个事件它产生的概率为0,是否意味着这个事件不会发生呢?不一定对吧?因为我在任何一个区域上。这是一个桌面,我呢随便投一个针上去哈。在投之前的话。
这个桌面上任何一个点被投到针的概率都为0。因为针尖的面积除以这个桌面的面积,它就是0。但是我投完之后,总有那么一个点,他被扎上针了。OK那个点被扎上了,这个事件发生了。投之前那个点的概率它是0。
是吧所以说一个事件出现的概率为0,并不意味着这个事件一定不可能发生哈。这其实是概率的一个。不好的一个结论。人们最好的想法就是,如果一个事件发不发生,一定概率为0,概率为0一定不发生,这是最优优的。
但是呢其实有一点点的漏洞,就是在这儿,对吧?概率为一,并不意味着一定发生。我这突然想起来,比方说呃大家有兴趣可以查一下一个很有名的算法。模拟退火算法。模拟退火算法它会告诉你。
以概率一能够最终收敛于全局最优。但是他从来不会说,如果严格的那个教材哈,他从来不会说一定会收敛到全局最优。因为他只是以概率一收敛到全局最优,如此而已啊,对吧?大你知道这里这两个区别哈,就是。😊,呃。
不会发生那几个点,相对于整个的区间而言,它已经是为零了。但是呢并不代表它绝对的,就这意思哈。OK这是关于这个哈。另外多说一句哈,就是说如果说X是一个离散的情况的话,那么说X某一个值所会它会发生。
OK那这样的话呃刚才刚解释完那个问题啊,就蔡头那个问题啊,概率一它可能不会发生跟概率零可能。呃,因为概率零一定不发生,是一其相反的概概念嘛,一样的对吧?把这个东西取反,把这个取反就一样了嘛,对吧?
那就不用解释了,对吧?呃,如果一个事线X是个离散情况的话,那么说。呃,我们把这么PX等于X0这个东西记做它的概率概率值。如果它是连续的情况的话,那么说其实我我们会知道它的概率为零不好办,怎么办呢?
对这样一个函数求导数。那么说这样一个东西,我们把它叫做概率密度。对吧它其实是概率密度而已,是这一点它的发生导数值,对吧?呃,这是两点内容。但是不呃所以不管是离散的,我们得到的概率分布率还是连续的。
我们得到的概率密度,后面我们不再去过分的区分这两种情况哈,在公式上,无非一个是sigma。一个是积分,在我们的眼中,在我们学计算机的这个呃学机学习这门语言的这种眼中。
或者在我们搞计算机的这个人看来哈sigma跟积分符号。一样的。本质是一样的,只不过一个是离散,一个是连续而已,对吧?他写的公式呢是这样子,我们编码都是软来sigma起来的,如此而已,对不对?呃。
模拟退火的话,在咱机续学习这二0次课里面可能还真不会涉及哈。呃,或许会在算法班讲吧,这个不确定哈,这这个这个真的不确定,我内容上是真的准备了。反看大家的需求哈,或者跟大家做一个补充材料吧。因为确实。
没必要再讲一遍默认退还,我做个补充材料好了哈。呃,然后呢就是说我们其实可以这么来搞,就是既然FX给定了。那么说我们把X只要小于等于X零的值都去把它加起来,得到的就是一个累积概率分布,对吧?
因为这个概率一定是从零到一的呀。所以这样一个累积函数一定是一个单增的。当然它可能是增着增着平了又上来的又平了有可能不一定是严格增,但是一定是一个增,并且如果X零取最小最小的值的时候。
比如说负穷定域上最小值,对吧?一定它的值是最小值是零,如果X取最大最大值的时候,那么说所有值都包括了它的概率一定为一,所以它加它的加和为一嘛,所以说这个斐函数哈,它的最小值是零,最大值是一。
对吧这就是咱的累积概率分布函数哈。对吧这是他的那个累积分布,这种累积分布,这是第一个说法,我们把它。变一个思路。反过来想。如果给你了一个函数,Y等于FX。而这个函数的值域正好是从0到1的。
OK我们就可不可以把这个事件这个X这个东西啊,这这是X这个事件X它的呃这个这个东西看作是这个事件X的累积概率呢?如果是连续的把它求导,不就是它的概率密度吗?对吧这样做是有可能的。大家做好这一个准备哈。
这个就达到了我们知识的一个升华了哈。因为我没必要从前向后去看,我们从后向前去看,有时候也是可以的,这样做真的是可以的哈。比如说老J回归,我们就是这么干的,后面再说哈。呃呃对。
当然也需要这个函数也是也是递增的。就是它如果是递增的,并且还是值域从0到1的。那么说它就可以看作是某一个概率分布的累一个累积分布。我们再去进一步分析它,或许会有很好的结论。比如说没错。
吴文明说的那个哎曲线c模的函数,或者我们后面会谈到的,比方说ICA。IA我们应该会在最大商务性里面会看哈,把信号盲源分离把它分开,也是这么做的哈,做这个事情哈。呃,另外呢就是如果这个函数FX它是可导的。
它就是概率密度,对吧?这个是已经说过了,对吧?另外呢我就说一下啊,概率呃概率密度函数简称是什么值,大家知道吗?概率密度函数简称PDF哈。对吧然后累积分布函数是CDF哈,大家知道就好啊。呃。
简单做几道题吧,大家放松放松啊,刚才讲的理论实在是太多了,玩几个东西吧。比如说第一个就是我们看看古典盖形,将小N个小球放在不同小球哈,放在这个大N个盒子里面去。如果盒子可以无限装。
请问每一个盒子至多放一个小球这么一个事件,它的概率是什么呢?对吧。凡是遇到这种问题啊,古典概型问题。我们就来算一下所有的情况,再算一下这个事件的情况。也就是把基本事件算一遍,把有有效事件算一遍。
二的一除搞定。先算基本事件,你不是一共小N个小球吗?第一个小球拿出来,一共有大N种方法,一共有大个盒子嘛。第二个小球拿出来还是有大N种方法,对不对?OK第小N个小球还是有大N种方法。
因此一共有小N个大N连乘,就是大N的小N次方。然后。如果是我们的这个有效时间数目,我们看一下这个一个盒子让它至多放一个球,对吧?你不让我算只多放一个球吗?O那这样的话,第一个球拿出来,它有N种方法。
但是第二个球只剩下了N减一种,少了一个,对不对?那第三个球是N减二种,少了俩,最后一个球,那就是小N大N减小N加一种,对吧?把这些值乘起来,其实是长这个值,我们把它记住这个记号,对吧?
从大N里边选小N个数的排列问题。因此它的概率就是这个排列除以这个幂次。这就是他的结论。欠单吧,对吧?对这样一个事情呢,其实有趣的一个东西是我们可以研究一下,把这个大N如果取做365,小N取做某些人。
那就得到一个有趣的概念。就是若干个人里面有没有。这个每个人生日都不相同,它的反向就是至少有两个人生日相同,对吧?我们可以把这个曲线用一减它画出来。对吧呃意呢呃注意哈。
这个不是那个歌唱原理或者叫抽屉原理哈。抽屉原理的意思是我如果是有N个,比方说有。有三个抽屉,有10个鸡蛋,我把这10个鸡蛋放到三个抽屉里面去。OK如果咱正常放啊,都都放进去的话。
至少有一个抽屉里面要放大于等于4个鸡蛋。呃,对吧抽屉原理或者割巢原理哈,咱这个是呃它的另外一种情况,就是考察它的概率了,对吧?就是可能我们鸡蛋的时候我们跟割巢的情况我们不管,对吧?那假定说。呃。
我们把小N取1取15取20到取50都算出来这个概率值,对吧?我当然随便取个值了,假定咱这个班里一共有50位同学,那么说这50位同学至少有两个人生日相同的概率有多大呢?带到那个公式一减它就得到了,对吧?
0。97。我们其实把这个式子可以画到图像上是长这个样子的。对吧。比方说咱现在哈那个呃群中的朋友一共有148位,对吧?那这样的话,像148人,大家可以算一下。
这个有两至少有两个人生日相同的概率几乎是百分之百。但是大家要注意哈,50个人放到365个盒子里随机放,他有97%的可能,你可能有两个人放到同样一个盒子里面去了,对吧?跟我们的直观是不一样的。
我们直观上觉得我直观上365个呢,对吧?那你放50个怎么可能呢?但真的是这样子,有些时候把它叫做生日悖论。就是这个内容本身哈,就是一般而言,咱现在一共有150人,对吧?
这150人其实有两个人生日相同的概率其实是非常高的哈,几乎是百分之百,对吧?好了,有兴趣大家可以试一试嘛。第二个呢,我们可以简单的跟大家说一下啊。😊,国粹。麻将我觉得算是一个很有趣的一个游戏,对吧?
OK呃,这者叫悖论,是因为。你有365个盒子,我就50个鸡蛋,我把它随机的放在这365个盒子里面去。你闭着眼睛放你极有可能把两个鸡蛋放到同样一个像一个盒子里去了。对吧这就是咱的生日悖论嘛,对吧?
当然咱假定。一年是365天哈,不考虑闰年哈,对吧?😡,这是范爷,是不是?然后呢,我们呃去掉花牌以后的标准麻将哈,是有1到9的万条饼各4张,以及东南西北中发白各4张,对吧?一共有136张麻将牌。
没有那个没有这个梅兰竹菊,那个那那个那个那个那这种情况哈。春夏秋冬我们不管花牌哈,只管正常牌136张。我们规定这个两张内容一样的牌叫价。这这大家都明白这个事啊,我只是把这个事儿得陈述一下,对吧?然后呢。
请问我第一个人我骑手嘛?我这装OK我骑手抓14张,很正常吧。请问他骑手没有抓到将概率有多大呢?对吧。😡,我们可以算一下,对不对?那其实很好算。第一,基本事件一共有136章,我任意选4张。
那就是从136里边取14这么这种区。对吧另外一共有136张除以4等于34。我把34叫34组group。然后呢,怎么办呢?你既然要你没有降,是不是?那就你先去选择34组里面给我选出14组来。可以吧。
我选择14,因为我最后要摸14张牌,对不对?我就让你选出14个组,这14个组里边每组里边都有4张,对吧?每一组里面我都有4种选法即实,是不是?所以说第一个先选出14个组。
再从14个组里面选出其中14个牌,对吧?因此这是。有效实现数目二者一除我呃我这个记号是我我瞎记的哈。因为我为了这个记号的意思是指的21、22乘到34,这是我自己的记号哈,大家知道就好哈。然后呢。
我算了一下概率大概是这个数。就是所以说大概就是你打个。呃,八九次就会有,比方说打八九次哈,那就是你晚一晚上有那么两回两三回,如果打的时间长哈,会有没降的情况,对吧?如果是。这是庄甲摸14张。
那么说你可以算下13张啊,13张的没有降的概率是多少?你也可以算出来,跟这个完全一样吧,14万的13嘛,你可以算一下,我随机摸13张牌没有封的概率啊。对吧然后我们如果定义好了,这个有了一副将。
这样14减去2,还有1413,对吧?13章里面剩下的这个14张12张,剩下的一共凑成四副牌。或者是三个一样的,或者是三个连在一起的叫一副,对吧?OK我们可以算一下,那么说胡牌的概率有多大呢?对吧?
天湖概率有多大呢?地湖有多大呢?对吧?大家都可以算。其实很有趣的概念哈,我记得以前的时候曾经。帮助一个人做过一个。设计过一个赌博的一个东西哈,就是我们设计的一套规则,事先算好各种概率有多少。
然后再制定赔率,然后再去生产机器哈。人都是这么干的,然后。一定是让保证这个我如果是做装,一定是要。概率赢的概率很高,并且让你感觉到你能够胜。呃,对吧这里面其实是有呃呃。
当时还真的是做过一个真的做过一个动的,但但是那个就很简单了,也有会,对吧?也有几张牌哈,大家有兴趣可以琢磨琢磨这个事情哈。比如说概率再乘上一个值分之1,再乘上一个系数,就是赔率嘛,对吧?😊,啊,OK哈。
所以概率是有用的。😊,对吧概率真的是有用的哈。然后呢,我们先来看一下装箱问题哈,就是说我们如果把12个件的正品跟三件次品,我们随机的放在三个箱子里面去。注意每个箱子里面放5件。对吧。一共15件嘛。
每箱放5件嘛?请问每一个箱子里面恰好有一件是次品的概率有多少可以算吧?我们先算总的事件,就是这里一共有15件商品,把它放在三个箱子里面去,是不是?那其实就是每个里面放5件,那ok我就这15件。
我先随便放,然后呢啪啪切开这15个数哈,然后从5到6切一下,从。这个10到11切一下,前5个里边,其实随机的,他们都可以做排列啊,中间呢可以做呃五的阶层,后面还是5个阶层,总共是15的阶程,对吧?
很快就能得到第一种方法就是。15个产品放仨箱,每箱放5个,就是十五的阶成除以五的阶成5的节成5的阶成。对吧那第二种情况呢就是。我们至少保证一个里边每个箱子都有一个次品。做呢一共就三个次品,就仨箱子。
OK那就只能一个箱子放一个嘛,对吧?我把第一个次品放到第一个箱子,放到某一个箱子,一共三种方法。第二个次品,那就是两种方法。第三个次品只能一种方法,所以是三个阶成,对吧?然后对于任何一种方法。
剩下的问题就是把12件正品放到三个箱子里面,每箱放4件标红的这个跟上面这个其实就是同样问题问题规模降一而已。所以答案是这完全对称的对吧?然后这个东西本身乘以三个阶成,也就是前面这个三种方法。
再除以总事件数目,答案是这个哈。答案无所谓了,对吧?我们关键是想说红色的这个东西,其实是这个意思。就是N个物品分成K个组,每组里面第一组放N1个,第二组放N2个,第K个放NK个,对吧?把这个东西加起来。
当然是N啦,对吧?那么说一共有的分组方法是什么呢?根据我们这个东西,刚才这个结论,我们其实可以把它做一个推广就是这么一个东西。N的结成除以N1N2到NK各自结成撑起来。对吧。😊。
这个东西如果把这个K换成2,就是它的简化版本。那第一个第一组放M个,第二组放N减M个。根据这个结论就是它按照结论除以它这个东西本质上就是组合数。所以上面这个可以看作组合数的推广。
下面这个可以看到上面这个数的一种特殊情况。是不是一样的东西,对吧?这个东西呢不是白讲的,咱在后面商还会谈到这么一个结论哈,它跟商是有很多很多关系的。我提示一下。如果这么个东西,这都是成,对不对?
取个log会得到什么呢?对吧大家可以想想啊。呃,简单的说一下几个,刚才我们讲的是古典概型,对吧?我们现在可以说说这个事情哈,这个题目本身看着像是推荐系统,是不是?但是呢其实是个概率。
有时候哈这个商品推荐里面呢,这个里面哈这个场景大家很很很很清楚,对吧?如果是过于的聚焦这个我最喜欢的那些商品,其实是损害用户的体验的为什么呢?你比方说我老是去买这个积体学习的书,我老买算法的书,对吧?
那么说他老是给我推荐这方面的书,那那很很正常,但是呢我可能就对吧?你要是哪天给我推荐了一本这个讲。电影的书哎,我很喜欢。😡,对吧所以他会带来惊喜感。所以推荐系统的设计是一个。呃,除了要考虑到数学模型。
还要考虑到人自身的一些特点,还有个心理上的因素,是不是它有个惊喜感。那这样的话我们就有时候会设计一个基于概率的一个算法。比如这样给你举例子哈,比如说我们经过了某一种算法。
计算出来了A这个商品跟我当前访问用户有个匹配度是0。8。这个B这个商品跟我这个当前用户的匹配度是0。2,我已经算好了,算完了。然后呢呃。这里呃大家能听到声音吗?呃,我稍等一下,大家说声音听不到了。
OK okK哈哦,我们继续哈。😊,现在呢不是把A的0。8B的0。2给搞定了,对吧?那这样的话,我现在呢不是把0。8给A0。2给B,而怎么办呢?我给A随机的均匀分布,从0到0。8的某一个得分给它分配给A。
从0到0。2均匀分布生成一个数把它给0给B这么做的哈。然后呢,我们现在来去这个。大家算一下,我其实A是0。8B0。2,对吧?我但是我随机算的,请问我最终最终所生成的这个B。
它的这个得分大于A的得分概率有多大?这是一个题目哈,我多说一句哈,就是呃大家那个再说一句,就是下一个新版本的QQ。这个大家呃我先打不了字哈,大家给他给其他人写写一下哈,就是下个新版本的QQ。
要不然这个有两个小时限制哈,就是10月最起码肯定都都没都没这个问题哈。😊,去年的时候是有这个是是有这个问题的。OK哈,我们继续有这个内容哈,其实这个很简单,对不对?然后因为什么呢?因为A是从0到0。
8均匀分布的,B是从0到0。2均匀分布的对吧?所以它的总的全集是这么一个矩形。我现在要算的是B的概率比A大,对不对?它让我算B的概率比A大嘛。那这样的话,我把A等于B画出来,所以这一点你看是B是这么大。
A呢。是这么大,所以B是比A大吧。所以说这个三角形内就是B比A大的那个范围,把这个三角形的面积除以矩形面积,马上就能得到结论。对吧。😊,这就是。咱们这个题目本身哈对吧?没有任何的可行可说的内容啊。
很简单,这个内容可以把它归纳为几何概型,本质还是国典概型,对吧?画个图出来,然后就就就出来了,面积一除,对吧?呃,如果大家没有看到提示,就是QQ上没有看到这个时间提示的哈,那就是已经是最新版了。
已经是那个起码是后期版本了,不会有任何的时间限制了哈。就是本来右上角是有提示的,如果没有看着,那就是那就无所谓了啊,那就是已经是无限时间了哈。我们继续哈。😊,呃,我们现在可以这么来想哈。
我们现在定一个条件概率,就是给定B的时候,A的概率怎么算呢?我们可以这么来定义,就是A和B的概率除以B的概率,把它定义做这个在B给定的时候,A的概率,这可以吧。对吧这常节概率哈,这常件概概率的定义本身。
然后呢,如果我们这儿给定一个全集大一个全集叫叫大叫叫做I哈。这里呢本身是一个A的概率,那就是A的面积除以这个I的面积就够了。我把这个B呢A呢我把它分成若干份,可以吧?分成若干个份。
每一份里面都和B有一个交集,然后各自再把它给加起来,其实就得到全概率公式。是这么一个东西哈,就是说我如果算A的概率,可以把它先算BI的概率,但是BI对A有一个概率,B1B2到BN都去把它加完。
最后得到就是这个全概率公式哈。利用全概率公式和条件概率,能够非常方便的得到贝耶斯公式。我们如果想算A的给定的时候,BA的概率怎么算呢?反过来先算一下。
上面应该除以PAAB除以PA把PAAB换成这么个东西,对吧?把底下这个PA用强力公式换成这么个东西,这就是B公式哈。它的特点是什么呢?特点是我如果想去算给定A的时候,BI的概率。
我其实算的是给定B的时候A的概率。所以贝叶斯公式其实是一定程度的混淆了什么是原因,什么是结果。总之,我们只能知道他们之间是有联系的,到底谁是原因,谁是结果,咱说不清。对吧到底是因为你这个呃。
因为你身材好,因为你这个呃。这个这个这个老是游泳,所以你身材好了,还是因为你这个身材好,所以你就喜欢游泳,说不清,对吧?总之它是两个之间是有联系的,我们不考虑原因结果。
我们只考虑是有关系的这是贝尔斯公式它的特点,对吧?所以它一定意义下是颠倒了因果,对吧?举个简单例子哈,这个例子其实是教科书举的例子,但是它其实很有用,对咱们不理解这个东西哈。比方说这个例子哈。
8个步枪有5只校准过,三只没有校准过。并且呢一个射手他呢如果是用校准过的枪去射击的话,能够以80%的概率中靶。然后呢,如果是以未校准的枪击射击,中靶概率只有0。3,这是特点哈。然后呢。
我们现在从这8个枪里边随机的选了一只,让这个射手啪射击帮中靶。请问。这个枪是校准过的概率有多大?对吧这个题目其实啊这种题目直接用贝尔斯公式,把这些所有的概念都写清楚就是了。这个题目虽然很很简单哈。
但是大家一定要清楚,我就假定大叫。没太掌握的时候哈,咱简单的说一下啊,就是如果一个枪是一的时候,他校准过他呃对吧?一共8只嘛,有5只这个校准过,所以是5%,他没有校准概率3%,对吧?
然后我们给定的概率是什么呢?如果这个枪校准过,他中靶的概率是0。8,这个枪有校准过,没中靶,那就是1。0。80。2喽。如果他没有校准过,他中靶的概率就只有0。3。但是呃中靶概0。3。
他不中靶的概率就是0。7。现在让我们算的是他中靶了,请问他校准的概率有多大?待贝叶斯公式所有的这个条件都给你了。如此而已。对吧。后面就不用说了吧,所以说最重要的是你把这个式子写出来哈。这是最重要的。
至于说这个怎么用,那太简单了,是不是?所以说这前面这块最重要啊,咱后面讲也会这么来考察这个事情哈,把前面这些东西。说清楚就清楚了,对吧?就跟咱那个。写那个自治通鉴里讲这个赤壁之战似的哈。
赤壁之战前面准备工作哇哇写了好多篇幅,最后赤壁之战本身哗很快写完了,对吧?呃,谢军说贝斯公式怎么来的哈,再说一遍哈,就是贝斯公式仅仅是你看哈这不是PBI备问A吗?按照我们的被条件概率。
它其实我把它清了哈,重新写哈,其实这个东西可以写成P。这个BI。和A的联合概率除以PA的概率,这是我们定义对吧?这不是调形概率定义嘛,然后这个东西可以写成它。这么什么没系吧?把这个BI做条件。
那就是BI跟NA嘛,这是还是条件惯例嘛,把这个东西用权列公式把它给带进去,这不就是把用它和它马上都变成B的公式嘛?好简单啊,是不是?其实任何一个东西都不难哈,基本条件一一掌握去就搞定了哈。好了。😊。
至于他怎么做,咱就不用讲了哈。呃,由于有贝斯公式,其实就会产生了两个学派。就是如果给你一个系统,让你去给那样本去。算这个参数的话,后面的这种若干种东西,他们是贝斯学派的。但是如果我认为参数本身是变化的。
它其实是。贝耶斯呃,前面这个是频率学派的,但是如果认为是变化的那就是贝叶斯学派的内容哈。这个东西咱们后面再去详细的探讨它到底是怎么回事哈,都会讲到的哈。再强调,没有高低优劣。
只是一个认识自然的手段而已哈。然后呢。本来贝耶斯学派是占上风的,因为他能解决问题,平论学派是解决不了。呃,有些问题他解释不好。容易过你河。但是。这几年大数据出现了。
大数据可以看的是频率学派对于贝斯学派一次强有力的逆袭。也许是这样子哈,咱只是简单说一下而已哈。呃,另外这个咱就不解释了,这个是后面我会谈到的哈,什么是先艳,什么是后验,什么是自然。呃。
另外呢就是一个简单的分布的介绍哈,因为这部分呢是其实就是一个简单的一个重温这个内容呢咱就不再详细的说了。但是我说一点哈,就是说呃这里边哈不管是零1分布,本实件,投硬币二项分布做N次实验,对吧?
然后呢它的期望它的方差都是可以做的。我们说一个情况哈。刚才大家不是已经得到这个式子吗,我们是通过台脑展示得到的,还记得吧?把这个东西呢两边都除以一的X次方,这个它就变成一了,它除以一的X方就变成这个。
这个再除一点方,这是变这个每一个都变出来,对吧?所以说它的通项公式是长这个样子的。这个样子里边哈,其实这个X是一个系数,把它记作一个一个值lam姆da,对吧?那就是 lamb姆da的ki幂。
E的负兰的次幂,这是K的阶乘,对吧?这样一个式子哈,它们的所有值的加和既然都为一,所以这样的一个概率分布率也是满足条件的,把这样子的一个概率分布,把它定义做脱松分布。
这是用塔劳展示来去解释坡松分布的过程哈。并不难吧,是不是就是谈了两做破松哈,那这样的话有了扩松分布,它是长这个样子的。K是个系数哈,是个参数哈。然后我们可以算一下它的期望是什么。
它的方差是什么各种情况哈,我们就都能得得到了,对吧?所以我们今天的这个内容哈,其实是跟大家把所有的内容做一个以机器学习的角度来看待它哈,不是简单的做一个复习哈,对吧?
另外就是连续分布量均匀分布也可以这么做哈,从A到B的它的期望它的方差,对吧?然后指数分布也是一样的哈,这是一个指数的一个变化,对吧?😊,呃,值识分布呢其实会有一个所谓的无记忆性。这个大家知道就好哈。
就是X大于T的时候跟XX大于S了,并且它大于X大于T是一样的。就一个设备,我用了100小时,跟我已经用了1万小时了,我再有100小时,它的可靠性是一样的,这就是它无记性。大家其实可以简单的做一个思想。
一个想法就是。有没有可能把这个无记忆这种全忘记的东西做一个半记忆呢?对吧这个大家可以作个想法啊,后面我们会谈半季,就是我不是完全忘掉,我只是。记得昨天的情况,但是我记不住前天的情况了。
昨日是可以重现的那种情况就是我们后面的做的事情。没错,就是一个马尔科夫模型,对吧?另外就是所谓的正态分布,这是高斯法现的,所以把它叫做高斯分布哈啊长这个样子的对吧?它的期望,它的方差都是可以求的哈。
另外呢高斯分布做2元的情况是长这个东西的,长这样子哈。如果我们把里边的这个标准的这个东西做方差,把它变小,它就变高了。方差变大,它就变矮了,把这个东西坐标轴做个旋转。
你看这个东西它又不是一个垂直于坐标轴了,它是这样斜着的对吧?它是这样子的,它是转了一个一个东西啊,它是一个呃。某一个旋转之后哈,对吧?这是2元的正态分布哈。好了,这个就不说了,这是最基本的一个总结了。
对吧大家或许应该是早就清楚的都有内容了哈。呃,然后呢,咱其实跟大要说的事情就是其实这些分布都可以把它看作是指数分布的一种。一个家族,比如说我们可以把它任何那些东西。
比方说高速分布波速分布都可以写成这样子子的一个。基本的一个形式。嗯,这样一个形式哈,这里边这个形式这个E塔是我们说的那个自然参数。然后呢,这个TY是我们的充分统计量。
其他的这个BY就是一个规划因子而已哈,这个咱不用管它了哈。然后主要呢就是我们探讨一下这个E塔这个TY这个东西就足足以了哈。说它呢其实是因为只要是一个分布能够写成指数分布。
那么说我们就可以把它用回归这个模型线性回归,把它变成广义线性模型那个东西去做哈,无非是因为它的原因哈。另外呢大家其实可以把这个不动力分布或者高速分布把它写出来算一下哈。比如说在算不动力分布的时候。
这个东西算完其实会发现哈,我们这里边这个掰这么一个值哈,可以写成这样一个东西。这是这个东西求反函数,这这这个东西哈,然后求完它这个斐可以写成它哈。这个e塔是我们给定的某一个值。
这个斐呢是我们的这个最终的概率值。我们研究一下这个函数,一加上E的负伊塔分之1,这样一个函数这个东西哈,它其实就是logistic函数或者sigma的函数。我们把它记作是X时候,把它记做FX。
这么一个函数哈。好,这样一个函数呢,大家画出曲线来,大家会发现是长这样子的。就是它是首先它是一个递增的,它还是值域是从0到1的。根据我们刚才所说的那个情况哈。它就可以作为某一个分布的一个呃概率累积函数。
对吧呃概率的一个概率的情况,这是可以的对吧?多说一句哈,loggistic跟sig mode无非是因为这个大家看到这个东西像S,对吧?就是英文的那个S哈,所以把它叫S曲线。
S曲线sig mode就是S曲线的意思哈,所以叫sigode的函数,当然它是log那个做那个人人口学的时候,它最早去用于研究人口的增长,所以我们有时候把它叫log函数也行哈。
所以这是两种不同的叫法而已哈。一个东西。😊,呃,这个老这次函数呢大家会有看到,哎,这个东西是不是神经网络啊,因为有些时候可以用它来做我们的那个激活函数,是不是?然后呢,另外呢在线性回归里面。
我们用它可以做我们的类别,是吧?其实也是一个二分类的一个正常用的一个函数啊,比方说大于零就是大于0。5嘛,小于零就是小于0。5嘛,对不对?也是个二分类嘛。
另外呢对它可以简单的求导OK它平方它求导它是E的负X求导就是。嗯。🤢,负的E的负X这里本身有符号对吧?它本身嘛,所以说这个方号丢了,就是它,然后把它写开是这个和这个这个东西就是FX这个东西就是一减FX。
所以它的导数很漂亮,就是FX和一减FX。本身这个东西哈,大家可以简单看一下。它的导数是一个偶函数吗?大家可以简单的来琢磨一下,它是一个偶函数吗?大家可以想想哈这个问题哈,对吧?另外呢。
高斯函数也是一个指数函数,指数分布哈。这个呃看因为它本身高斯函数长了就像指数函数,对吧?很像哈,然后是可以写出来的哈。呃,O哈,咱上面呢就是跟大家来分享的关于今天的。主要的内容哈。
另外呢有些分布其实大家建议大家也了解一下,比如说伽马分布伽马分布的这个函数那个概率密度函数长这样子哈呃概率分呃。对,概率密度概率密度是长这个样子哈,就给定一个阿尔法给定一个贝塔。
那么求X它的概率是长这个样子哈。然后这里边呢还有一个所谓的伽马阿尔法,这个伽马阿尔法是伽马函数,它是长这个样子的这是我们的定义哈,这个东西其实是欧拉发现的。这个东西可以看作是阶成的推广。
比如说大家会算十的阶成。对吧那你会算0。5的阶成吗?0。5的阶乘就直接把阿尔法等于0。5带到这里面去就能算出来。它可以看作是阶成的推广哈。另外呢伽马函数期望是这个东西。
后面呢我们在主题模型里面会有一点点涉及到它。这个东西哈。好了,这是但是不多哈,咱不会强调讲这个玩意儿,咱主要还是讲LDA了,不会讲这个东西了哈。但这知道就好哈,伽马2分之1,大家算一下算一下啊。
真的跟圆周率还有关哈,很有气的一个结论哈。😊,有圆周率,也许也许它的背后会有什么什么圆存在。是吧。呃,另外呢我说两个思考题。第一个就是这是一个今年呃就是15年这个BAT应该是阿里哈,它的一道面试题。
我只是把它的萧山机场换成首都机场了哈,大家看一下就好了哈。呃,这这个大家可以用几何盖型来解决。这个问题呢是一个用已知的概率分类器来去设计新的分类的一个东西。它呢咱们后面讲采样的时候会看涉及到哈。
但是大家可以想想怎么做,这是一个很有趣的一个问题哈。好了哈呃。😊,哦,OK这也很重要哈。就是说呃咱积极学习这门课程里面哈。😊,呃,相对而言最通俗易懂的教材哈。
除了刚才咱讲的PRML跟MP以及这个统计学习方法以外,这个安NG的积极学习它的这个课程,它的讲义。非常重要哈,大家如果有时间呃,尽量的可以把呃把它读一遍哈。因为咱刚才的一些截图。
一些用的东西也是取自于这个讲义哈。散博大学的。但是现在它已经是在百度了哈。另外呢就是关于今天所跟大家复习的高等数学数学分析的内容以及这个概率论的内容哈,大家随意找一本书都可以哈。随意找一本哈。
都是可以的哈。呃,咱到后面仍然会用那个。
看到这方面内容哈。
人工智能—机器学习中的数学(七月在线出品) - P5:极大似然估计 - 七月在线-julyedu - BV1Vo4y1o7t1
。O哈。😊,我们这么来考察这个事情哈。😊,就是假定我们想想贝叶斯公式。如果在给定条件D的时候,算一下这个A这么一个概率,对吧?这个东西其实根据别的公式是它除以它这个东西咱讲过了,对吧?
现在我们把这个D看作是已知的样本,这是条件啊,那么说就是给定了样本之后算这个分布的参数。我们这么来看贝也思公式好吧,那就是给定参数的情况之下,看看给定样本的情况之下,看看哪一组参数取得概率最大。
我们就认为哪一组带参数是最有可能的,最应该去。被我们估计的那个值,对吧?我们这么来想哈,根据被公式既然是这个东西,我们来观察一下这个事情哈。假定这个样本D而言,它呢可能得出一个结论。
A一可能得出一个结论。A2,它不一样的哈,可能最终得到1个AN假定可能有N种可能,也就是我想估计一下,在样本D这个数据给定的时候,看看哪1个AI它的概率最大。对吧这么来看哈。😊,那我就是想算一下这个值。
它的最大值是什么,它最大值的时候,看那个哪个I能够符合我的大值,对吧?根据贝式公式,这个东西直接带贝式公式,就是它没问题吧。注意哈,上面这个东西跟AI是有关的,底下这个是个PDPD什么东西啊?
是我们样本它本身发生的概率,样本都给你了,样本发生概率是多少,它就是一个除以一个同样的一个数,所以对它而言是个常数,我们不要这个分母了,对吧?只剩下了这样一个东西。对吧。
如果我们进一步假定原始的在没有给定数据之前,结论A1A2到AN他们是等概率出现的,或者是近似等概率出现的,大体上差不多。就是没有任何相应信息的情况下,我们PAI大体是相等,我们把它再把它给扔了。
那么说把它扔了之后,就得到这样一个东西。这是什么呢?我们把中间这个过程全部给忽略掉,左边是这个,右边是这个,也就是写成第二行的式子号。大家发现问题了没有?我们本来要做的事情是看一下在样本给定的时候。
看看这个哪一个结论是最大的。但是我们在实践上还是在社会上都会发生的一个思想,是我们反过来看看看哪一个参数能够使得这个数据最大可能的发生。我们就把那样子的一个参数看作是我们最有可能估计的值。是吧。😊。
这个东西。如果给他讲故事的话,相当于颠倒颠倒黑白。互为因果,把因和果把它给倒过来了,是不是?倒过来做的事情对不对啊?但其实呃我们利用贝尔斯公式真的是可以解释的。有些时候颠倒因果是有道理的。
因为贝尔斯公式是成立的,我们只能承认他,对吧?这就是关于这个事情哈,那我们就利用这一点不再去看。哪一个数据给定的时候,哪个参数可能值最大,而是看一下哪一个参数能够使得这个数据产生的概率最大。
这个就是极大自然估计的基本的想法。对吧我想过各种各样的解释哈,我觉得这种解释是大家最能够接受的。对吧你每一点。都很清楚,我我感觉这这样的我们就就能说明这个事情了,对吧?好了,我们来看看他到底怎么回事哈。
😊,呃,我们假定一个总体的分布是长这样子的,这个西塔是我们不知道想知道的一个参数。这个X是我们的这个呃那个基本事践,我们的研究对象。
这里面呢这个X1X2的XN是我们这个通过这个总体来去采样得到的一些样本N个样本。首先这N个样本是来自于同样一个分布的。假定他们是独立的,也就是独立同分布的。好了,既然他们是。
呃比方说对于这个X一来而言哈,它发生的概率是什么?就是给定参数的时候,X一的概率嘛X2呢就是写X2嘛,X3呢就写X3呗。如果他们是独立的,大家还记得吗?独立的时候意味着如果X跟Y,它们的联合概率。
可以写成各自的概率的乘积,没问题吧。好了,我们如果这里不是X跟Y,而是X1X2的XN,这里边就是XI的值各自乘起来,就是这样一个式子。无非就是把它做了N个变化而已哈,这个参数我们假定有K个,对吧?
posts就一个高斯母就俩。然后这个呃君form母也是俩,就这东西啊,反正是有若干个有K个,对吧?这个东西是它就写成这样一个东西了,对吧?这是什么?这个是我们样本它发生的概率,对吧?
第一个样本拿到手的概率是这个码,第二个样拿手的概率是这个码,到第一个也是这个码重来这其实是我们拿到这个样本,它的概率。拿到这个样本的概率,那就是。发生了这个事情了,对吧?既然发生了这么一个事情哈。
那就是呃像那个样子发生了,像那个样子发生了。呃,这个东西把它说的文眼一点哈,就是似然。像什么什么的样子似然嘛,因此这个东西是个lixi的,是个似然函数,对吧?这是一个L函,我们记住l的记得大L。
它表示的是我们样本它发生的概率。对吧。😊,另外我们可以想象的到的是什么呢?这里边拿到手的这N个样本,其实已经是。放在这里,我们能够看见的东西了,我们看不见的东西是西塔一西塔2到西塔K。
我们转过一个视角来看,我们把这样一个自然函数看作是关于未知参数西塔一到西塔K的一个函数也是可以的呀。对不对?因为样本虽然用X表示哈,它已经是给我们的了,它已经采样得到了,西塔是未知的对吧?
所以这个似然函数我们看作这个东西,关于西塔的函数,这是一个自然哈。下面的工作就是我们去求某一个西塔,使得这个自然函数,它能够概率取最大。那就是我们的极大自然估计。这个也就是刚才咱说的这个东西。
是不是看看哪一个参数能够使得这个D绝对大吗?也不就是这个事情吗?好了,这是我们的想法哈。在实践当中呢,我们由于为了求导的需要,往往是对自然函数先取对数,得到对数自然函数。对这个对数四上函数取导数。
然后得到了若干个方程,然后呢让它求注点,往往求的注点就是极大值。就这么做法哈,所以我们先对它取对数,取对数之后呢,这个大L变成了这个小L。我们一般用小L来表达哈,这个东西是它。
然后呢分别对西塔一西塔2到西塔可以求偏导得到这个东西,这其实是个方程组解方程就是了嘛。好了。这个就是关于吉大市场估计的这个。基本原理哈。好的,所以咱这块是最重要的一个事情,是不是大家一定要。😊。
清楚这块哈好了,这样子我们简单的看几个例子就好了嘛。我们先看第一个简单的就是抛泳币。😊,我们已经说了,本质就是去找出与样本的分布最接近的那个分布值。然后呢,举个例子哈,比方说我们掏了10次硬币。
如果大家没听懂的哈,继续听例子就懂了。然后呢,我们假设抛个硬币,这个抛10次,第一次呢呃是个正,第二次又是个正,第三次是个反,第四次是个正等等等等等等,抛了10次。我们拿到了这10次的抛壁结果。
我们现在呢来去假设这个P是每次抛硬币结果为正的那个概率就可以吧。我们现在呢想来估计一下这个P等于几。这个P是我们未知的这个P其实就是那个二项分布的那个唯一那个参数嘛。因为这个10次拿到手啊。
就是那个呃那个伦分布的那个唯一的那个参数,对吧?就是就是一个参数P,我们就想估计这个P等于几,怎么做呢?好,你不是第一次是正吗?O这个正它发生的概率就是P呗,第二次不是正吗?发生的概率就是P呀。
第三次是反啊,所以它的发生概率是一减P呀,对不对?第四次是正,那就是P呀,每一个都这么写出来,其实就是一个P的7次方乘以一减P的3次方吗?对吧本质就这么回事儿嘛。这个东西相当于是关于P的一个未知的一个。
函数这个函数我记作大批。其实这个东西就是那个大L,对吧?你就大L一样的哈。我们现在想来求这个大L的极大值是什么?谁能够使得大L去极大值,谁就是我要估计的那个P的那个最优的那个值。
P的那个自由值其实是等于0。7的。请问。😊,怎么做的?好了,我们现在呢把这个东西做一个理论化的一个说法啊,到底为什么能够上升0。7呢?对吧?其实很简单。抛影B对吧?进行了大N次实验,有小N次朝上。
有大N减小N次朝下。好了,假定朝上的概率是小P,这不是我们做的吗?好的,那这样子给定小P的时候,这个小N发生的概率,这个F,对吧?它其实写成自然函数是这个东西,取对数就是我们的对数自然对吧?
这个对数似然,我记作关于P的一个函数H总可以了。本来这个东西哈是给定P的时候,N的概率。但是写成这个东西之后,我做了这个定义,已经把它看成关于P的函数了,对吧?P是未知数,N是给我的嘛,对不对?
我不研究NN是给我的东西,我研究P。好,我对这个东西求偏导,很简单,能够求出偏导是这个这东西,大就算下就好了哈。求完之后,然后令它等于0,能够算出我们的P等于这个东西。小N除大N。这个结论。
跟我们的直观想象没有任何区别。你进行大N次实验,有小N次朝上,你就是不说这一套理论。你问个小学生,你会让他算算这个他朝汕概率有多大呀,或者你这么说,你说朝上的可能性有多大呀,他一定用小N除大N嘛。
对吧我们现在利用这机制来得到了一个结论,并且这个结论跟我们的实际是没有矛盾的。说明什么说明一定意义向,极大自然估计是对的。我们不能说它一定对,对吧?总之,我们通过这个假定,我们给出了一个最终的结论。
这个结论跟我们的直观是相符的,是能够解释的。所以我们整个的推理。没有发生大的偏差。对吧我们起码可以只得出这么一个想法。所以我们可以认为下三估计是有道理的。
大家不要觉得其他资产股给是个很古老很古老的一个一个一个艺术哈,它的产生时间也就是100年的时间哈,离我们非常近。其实是一个不算老的技术哈。虽然在计算机学这个叫这个里面哈呃比较老了哈。想起个段子来哈。
学数学的人呢,大部分的数搞这个数学定理的这个发现者都已经这个不在了。学计算机的人呢,大部分的这个呃。计算机的这个研究者呢还是在世的对吧?还有些是在世的,或者是刚刚去世的。你像像迪色拉呀,对吧?
像这个香农啊,对吧?他们都是就是已经是我们这个时代的人,起码是我们能够够得着学机器学习的这个人呢,大部分的这个研究者,不光是在世,并且还是年糊力强,正在。做更多的这个研究的人,对吧?
所以这个学科是有一个这个还是很年轻的哈,对吧?呃,我们现在给个另外一个例子啊,就是关于正态分布,如何去求极大自然估计呢?就是给你了X1X2的XN这N个样本。那么说假定它来自于高斯分布。
你能够估计这个高斯分布的均值和期望吗?还记得刚才我们用举估计,其实给出了期望跟方差的结论了,记得吧?如果大家忘了,再回忆回忆哈,对吧?我们现在呢用极大自然估计再来算算到底结论是什么,对吧?这个意思哈。
首先,高斯分布的概率密度函数是长这个样子的,没错吧。然后我把这个样本XI的这个样本X小I带进去,是这个东西,让它I从一到N把它乘起来,得到的就是它的似然函数。让这个自然函数取对数,就是对数自然。
它取对数OK那就是把对数放进去,这个加和就是呃积分那个乘积就是加和,对吧?得到这两个东西。这两东西一个是前面这一块,一个是后面这一块,也是两个数乘积啊,可以写开。第一块就是这个东西把所有值加起来。
第2块是这么个东西取指数再取对数。所以光剩下这么个东西本身了。对吧。😡,而这个东西前面这一块哈,它是I从一到N加完,这个东西是个定值,哎,发现没有?所以就是N倍的。
我把这个2派西马方的2分之1把它提过去,范之1提出来得到这个东西,对吧?仅仅是提出来而已哈。这个里边呢把这个-2西马方作为参数提出来,作为那个定值提出来就剩下这个东西了。对吧。😊。
我们现在对这个东西的缪求偏导,就能够求出它的均值,对它的sigma方求偏导,然后当然等于0就能求出它的这个方差,对吧?咱把它作为一个思考题哈,大家自己练一练,算一算,分别求偏导如何去得到。
就能够非常方便的得出这个结论来。这个结论漂亮吧。这是什么?这就是我们样本的均值,就是总体的均值。样本的伪方差就是总体的方差。这个结论跟我们刚才举估计的那个结论是完全一致的,没有区别。
二者虽然我们在更多的统计学家是把方差定义做N减1分之1的,但是。这个吉他市场估计和几估计,他们都指向了一个结论。他们这两个方法都觉得应该除以N。是吧。所以说除恩是有一定的意义的哈,不是就真真错了哈。
除恩是有意义的这是这个东西哈。我有时候把它叫伪方插哈。因为经典一还是除N减一嘛,这个东西我们后面再谈到EM算法,期望最大化。我们再谈到高速模型,仍然会用到这个东个结论哈,这个是个很好的一个结论哈。
我们后面还会谈到的哈,所以今天一方面可以用它来学计大算估计。一方面呢后面是有用地。是吧。好了哈,这个是关于这部的内容哈。另外呢就是我们简单的说一点事儿。就是既然你刚才不是给了我这个极大自然估计结论吗?
OK我就跟上这个结论给你做一点点的这个呃结论出来。我到底看看你到底跟实际符不符合,我们倒一个例子出来。比如说我们的校门口去统计一下一段时间哈,统计出入门口的这个男生跟女生的数目。
我们记住N boy跟N girl两个记号哈。用这个东西来去估算男女生的比例。根据刚才我们极大数量估计抛硬币那个例子,那么就是一个是朝上,一个是朝下嘛,所有的值是N加NB加N girl嘛。
所以这个结论很容易求吧,一个是bo的概率,一个是gl的概率是吧?好了。我现在呢。统计了一段时间,发现出来了有4位女生跟一位男生带入这个公式。我说该校的女生比例是4除以580%。这样对吗?很显然。
这样做是不合理的。因为一个学校的人数是很多的,但是你只拿到了4个女生,跟一个男生,你就得到一个80%的结论。似乎。有点不太地道吧。对吧那我们可不可以做一点点的修正呢?比如说我这里边让这个分子加上一个5。
让这个分母加上一个1,它加上5,它加上5,其实分子加上十正好还是规划的,对不对?那这样子我们把这个四跟一各自带进去,我会发现哦女生比例是60%,男生比例是40%。似乎比刚才的80%更靠谱。
对吧我们不能说40%跟8%60%也是对的哈,但是似乎比这个更合理一点。是吧现在问题就是。第一,你为什么知道要加上一个数呢?这个家有道理吗?第二,你要加的话,你应该加几呢?对吧。先回答第二个问题。
如果要是加,我们承认它的话,加几这个东西是一个超参数,是无法通过我们的样本就能够估计出来的。我们需要做一个交叉验证才可以。这个加几哈,这个加几,我是自己把它随便试出来的一个数。我觉得这样还不错。
然后就给出了一个这个东西哈。呃,没有什么更多的结论哈,这个这个例子是我硬造的。大家如果在别人上看到同样数据了。啊,就是就非常荣幸哈非常荣幸雷同了。😊,然后这是第一个。第二个呢就是加这个东西。
其实意味着什么呢?意味着我们没有完全取信于极大自然估计的这个结论。而是做了一个变化,这个变化来自于哪儿呢?来自于前边,我们把它再倒回去,看看我们最开始讲极大自然估计到底是怎么说的。
我们说啊这个里边如果在假定PA它的概率近似相等的时候,就可以推导出来极大自然估计是正确的。那如果这个PAI近似不相等呢。对不对?如果PI服从某一个分布呢。比如说后面这个例子。
我如果假定它的参数是服从伽ma分布的,或者是多元的,就服从directri分布的,它就可以加上一个数来去得到结论了。这个就是极大自然估计,把这个东西加上一个先验,就得到了极大后验概率估计的原因。
这是一个非常有趣的一个概念哈。如果是大家有这个清楚过DDT应该是清楚了主题模型,对吧?那个LDA其实就这么干的对吧?它就是加了一个超参数。所以哈我一直在强调哈咱的那个前几次数学课哈。
真的不是复习数学而已。只是我们用积极学习的眼光来去看待数学,来去看看它到底里边有什么跟我们相关的事情哈。
好啦,这个是关于吉大资量估计的一个。
人工智能—机器学习中的数学(七月在线出品) - P6:矩估计 - 七月在线-julyedu - BV1Vo4y1o7t1
🎼。我们下面呢看一点点这个呃样本的统计量。我们这么来想这个事情哈,就说呃假定这个X1X2的XN是一组样本。那这样子我们给定了这些数这么些值,我们就可以把这些值拿出来除以N,我记作这些值的均值。
这这种可以吧,平均数嘛,对吧?然后呢,如果把这个XI减去它的这个均值平方之后加起来除以N减一,我们把它叫做它的方差,注意哈。咱这个里面说的这个东西是样本的统计量。刚才说的那些东西是关于总体的。
就是给你的一个概率分布率,给你的一个概率分概率密度函数,让你去算它的期望是什么。咱这个里面说的是你给了若干个样本,你来算它的统计量,算它的均值啊、方差啊等等等等东西哈,这是。
这个概念别大别换一个是总体的,一个是样本的哈。这里边呢多说一句,大家呢其实我们除以N减1。一般而言是为了保证是无偏的,而不是除的N,对吧?呃,另外呢大家想想什么叫无偏呢?无篇又如何证明呢?
咱们这个作为一个思考题哈,大家可以想想如何去做好。这是关于均职和方。但实践里面哈但实践里面真的有些出恩的哈。就是虽然教科书上我们定义是除以N减1哈,但是我们实践当中除以N没关系哈。😊。
就是实践当中真的是有除N的,并且是有理论依据的。除N不是这个没道理的。对吧。这个哈。呃。O有那个NNDDDL提到了一个概念叫自由度哈,这个分置概念非常重要哈。
就是说是不是说就是说这个大家可以用自由度的那个概念去理解一下这个方差哈。这个可以怎么来解释呃,咱不说了哈,大家知道就好哈。那那个就是用自由度来去说这个事情哈。😊,呃。
另外呢就是我们仿照着对总体的那个举这么一个东西的定义哈。我们现在说一下对于样本如何求这个东西哈。比如说样本这个值乘以K4幂加起来除以N。哎,我们把它叫做样本的原点距。
样本的值减去它的这个均值乘以K4幂除以N,我们把它叫做样本的中心距。可以吧,因此。一级。原点距就是样本的均值。一二阶的样本的中心距几乎就是样本的方差。如果除N减一的话,就是方差。如果是除以N的话。
我有时把它叫做伪方差哈。我不知道这个字应该怎么叫哈,我大概体量把它叫做伪方差哈。这么一个东西哈。嗯。然后呢,我们现在就要说一点事儿了。因为我们刚才给定了最开始哈一个总体,我们可以算它的局。
就是你给你的概率分布率,概率或者概率密度函数能够求它的举。抽样得到若干样本也能够算一个局。他们二者之间有什么关系呢?比如说我们可以换一个说法,就是假设说我们总体服从某一个参数为西塔的分布。注意哈。
比如说这个西塔的意思是一个虚拟的啊,你比方说呃高斯分布,这个西塔就代表的是缪欧和西igma。如果是这个poom分布,这个西塔就代表是个lammbda。如果是均匀分布,这个西塔就代表是那个A和那个B。
就是这个C的是个位置,是个是个虚拟的一个记号而已哈。大家知道代表的是我的一些要估计的参数就好了哈。这个参数呢我们讲定是这么想,认为这个参数它是客观存在的。但是呢它又是未知的,它可能是某一些值。
比如说postal分布,它可能是以某些向量。比如说它就是高速分布,它其实是代表俩值,它是均匀分布代表俩值,所以它有可能是个向量,对吧?这是我们对西塔这个东西的认识哈,对不对?好了,呃。
对大家那个听后面内容哈。这个咱的内容是呃这块很重要哈。然后呢,我们既然有这么个说法了,从总体中我们其实得到了一组样本X1X2的XN,是不是?问题来了,我们能不能用这些样本来去估计这个参数呢?
这个参数C料是不知道想知道的东西是吧?就这么西塔。首先我们做一个假定,假定样本是独立同分布的。第一哈样本都是取自于同样的总体,所以它们是同分布的,这个没问题。我们假定我们取的样本是独立的。
这是假定出来的哈,这个真的是没有任何的依据哈。我们假定这些样本是没有关系的,是独立的对吧?是独立成分部的。😊,以这个前提我们来研究一下,通过我们X1X2的XN来去如何去算。我们想想哈。给你了这N个样本。
我们就可以利用刚才我们这个样本的举这么一个概念,能够非常方便的求出它的原点距和中心矩,对吧?不管是原点有中你都能求出来,对吧?能够算出来的K阶距都能算出来,这就是K个数啊。这是竖式我们能算出来已知的了。
对不对?然后呢。总样本的这个K阶矩,我们让它去等于总体的那个K阶局,可以吧?因为总体的一阶矩就是关于西塔的一个方程。二阶总体的二阶矩就是关于西塔的一个方程。三阶矩就是关西塔的方程。假定你有N个未知数。
我就给你列N个方程。我就给你解这个方程,不就能求出这些参数吗?当然如果只有坡层分布这种情况啊,我列一个方程就够了。对不对?分子分就我列一个方程就够。但是我如果是高斯分布,我或许需要列两个。
如果是均匀分布呢,我或许需要列两个,对不对?这是我们能猜到的,利用的就是这个举这么一个概念,对吧?这个内容就是举估计。用举来去估计它是个什么东西哈。他的思路非常简单,就是假定说我们总体它的这个期望是U。
它的方差是西igma方。注意哈,这个缪和西igma是未知的,我们带求的。我们想求这个缪,想求西igma哈。利用我们的原点举的公式。那么说呃期望就是一阶原点举。而。😊,平方的期望,这是二阶原点举,对不对?
根据我们方差的定义,方差加上期望的平方不就是二阶原点举嘛,对不对?因此是这个东西,它其实是sigma方,加上缪方。这个缪和这个西igma其实是未知的,反正写出俩式子来了。
我们根据总体的样本能够算这个式子,A一把它加起来除N,把它平方加起来除N,这是A1和A2。这个A一是一个数,我们能算出来的。A2是个数能算出来的。我们让这个缪一等于A1。
让这个缪西格ma方加上缪二的方等于A2,这就能够连立出来一个关于缪和西igma的一个。2元的二次的方程。不管如何,我们能够求出里面的这个参数缪和西igma来,对不对啊?
因此我们能求出这个缪和sigma方。各自是等于这个和这个这个简单的那个做一个变化,就能算到它了哈,非常简单,咱不管了哈。我发现没有这个值其实是我们通过我们的实际的东西能算的。
这个值是我们通过样本能算的这不就是求出了总体的期望跟方差吗?这个东西是我们估计的对吧?估计的东西哈,我们习惯上加一个hch。得到了这样一个结论,这个就是取估计的最终结。简单吧。只要是举估计的这个东西。
我们就用样本的。方差而样本的均值去作为总体的均值。用样本的伪方差作为总体的方差就好了,这就是举估计的结论。不管任何一个分布都是这么做的。清楚了吧?并不难,对不对?😊,所以咱这段很重要哈,是吧?😊。
好了呃,举了意义上刚才已经讲过了,对吧?好了。😊,这是我们做参数的求解啊,这样参数不就求出来了吗?好了。😊,比如说大家说啊我如果说啊给你了一个正态分布的若干个样本给你了N个。
这里边是N1X1X2的XN这是给定你了哈。然后让你算一下这个正态分布它的均值和方差。那太简单了,直接带结论就是了。😡,对吧结论刚刚给我们算出来,利用这个样本,利用这个样本就能算出来各自的它的均值跟方差。
对不对?大家看到没有?除以N。是有意义的。我们用的其实是算的样本的伪方差来去代替了总体的方差。虽然这种方差估计值按照我们的这个原理而言,其实一般而言是偏小的。对吧。一般而言是偏小,但是呢。反正能够解释。
用举估界结论,我们上这些东西。既然我们能够承认这个给定了原,给定了这个样本的矩,给定了这个呃总体的矩,我们让它相等,都是原理都是可以,都是每一步都是有道理的。最终的结论就是道理的,我们只能承认他。对吧。
😊,我们采样的这些值只有一个要求,就是他们是独立的。独立采出来就可以,对吧?因为他们采出来属于同样一个总体,一定是同分布的。好了,我们再给个例子哈,比如说均匀分布呢。X1X2的XN他们是定在A到B上的。
我采出来了,你如何估计A到B呀?OK根据我们的这个均匀分布的特点,均匀分布的期望和方差是等于这个值。这是我们第一次课跟才讲过的对吧?那么说我们让第一个这个数等于这个东西。
让第二个这个方差这个数等于这个东西可以吧?因为这个数这个数能算出来的。那我们总能解出这个A解出这个B来,解完A等于这个B等于这个这个m hat sigma hat,就是我们求出来的,根据样本求出来的。
样本的。这个均值跟样本的伪方差。这样就有意义了吧,就是给你了一个N个数。你想看这N个数到底它是由哪一段进行产生出来的一种解法就是这么求。是不是?😊,这是有意义的。
缪方减去根号3倍的方差而标准差嗯缪 hat加上根号三的标准差。我们认为它是从这儿均匀采样出来的,原理就是取估计。对吧。好啦,这是关于均分布的这个事情哈。
人工智能—机器学习中的数学(七月在线出品) - P7:矩阵基础的综述 - 七月在线-julyedu - BV1Vo4y1o7t1
我发现呢这个矩阵,还有那个图优化呢,对于我们这些学科,包括图像处理啊啊,机器学习啊都是非常非常有用的。它就相当于你要去建一个房子一样。他就相当于你的这个基础,对吗?如果你能把这个基础讲好。
这个掌握的很好的时候,你再看上面那些复杂的算法的时候,哎,你就能看得懂。否则如果你啊这些基础你都没有打好的情况下,你就贸然去看那些算法。你知道它是这样的一回事。但是你就不知道它是为什么。
你到最后你搞了半天呢,哎你也只能就是说把人家东西复制复制,你完全无法自己做创新,对吧?这是很重要的一点,所以呢今天呢我们就主要是来讲一下这个矩证和这个线性代数的一些基本的知识。
我相信我今天讲的这些东西呢,可能跟咱们以前对这些教材都不太一样。因为呢呃实话说,其实我当年读本科的时候呢,也上过这个线性代数,这个微积分大家肯定都上过,还不瞒大家说我当时记得我还考了满分。
但是说实话等到我读博士的时候,我发现。我当时学的那些东西,其实我并没有什么印象,就基本上都忘了。就考完试以后啊,我会做很多题。当时考试的时候,但是考完试以后,其实我觉得我对举证并没有真正的理解。
在我后面的这个不停的这种啊科研这些过程中,我才慢慢的发现这个矩阵啊,其实是一门非常优美的课。就是它优美在哪里了。我们待会后面再说。
然后呢大家从那个张贤达的那个矩阵分析应用的那本红宝书上也可以看到矩阵本质上其实还是很复杂的。而且随着现在这个发展,包括这些图像啊,机器学习的发展。它矩阵这门课的本身的这个理论也在不停的发展。
所以呢这里面其实有很多很多的东西,但是我觉得啊万变不离其宗,最关键的就是我们能够把矩阵的一些基本的东西能够搞懂。这样的话,你不管是看矩阵啊,以后的课程或者说再去看机器学习。
这些课程都会对你你就会感觉很轻松,相对轻松很多啊,所以这是我觉得矩阵的一个最重要的。所以我今天呢就是呃长话这个地方就不多说了,我们就主要分享一下啊,我当时我这么多年来呢,就是学习这个矩阵,也是我一是一。
是不停的在学习。那么通过学习的过程中呢,我对矩证是怎么理解的,好吧。好,我们现在就开始。那么我们今天主要是讲三个部分。第一是矩阵,第二线性代数的基础。第三是矩阵的特征分解。
那么呃我们大家看看这个矩阵本质上是个什么样的东西啊,你看啊我们现在矩证本比如说现在这样一个A矩阵,它是一个M乘N的矩阵,像这个矩阵,我们就是4乘3的一个矩阵啊,大家都知道。
其实当时我在网上看到一个段子啊,他们说矩阵是什么?有人告有人就是说矩证么简单,把这个12345678911112写在一起,然后拿个方括号括在一起,这不就举证嘛,对吧?很多人是这样说的啊。
其实这是一个就相当于非常非常粗粗略粗略的这种思考啊,其实矩阵并不能这样去想,我们再看一下这个向量啊,AX等于B。就是一个线性方程组,A是M乘NX是N。那么这样的一个矩阵成样这样一个向量等于一等于11。
这实际上就是一个线性方程组。那么我们现要来想想这个线性方程组,你有几种思考的方式。其实这个线性方程组本质上有三层的思考方式。我看大家能够理解到是现在就是有很多人可能已经忘了啊,能够理解到第几层。
第一层很简单,实际上就是线性方程组嘛,不是X减2Y等于13X加2Y等于11。那么你要解这个线性方程组,无非就是。实际上你把这个X减2Y等于一画在几何图形上画一条直线,3X加2Y等于11画一条直线。
不就是找这两条直线的交点嘛?所以说白了你从这个行的这个角度上来看,就是你从矩证这个行的这个角度上来看,它本质上就是求。两条直线的一个焦点非常简单,这实际上就是不是不是,这已经不是大学数学了。
这应该是我们初中数学应该讲的东西,对吧?那么但是第二层理解就不一样了,这就是矩阵往更深的里层去理解。那么X乘以1乘3,我们把一和3啊,就一和三写成一列-2和二写成一列。那一,然后它等于一和11。
大家看看这其实是什么?实际上是举着我们的另一种AX等于B的另一种思考,它实际上是列的线性组合。举证AX等于B本质上是。列的线性组合线性组合的系数是X和Y一和三是分别两列,这就是我们很重要的一点。看法。
那么第三层理解就不一样了。第三层理解我估计很多人他都已经忘了。他实际上是这个线性的这个我们说的这个矩阵的线性合并,就是像这个线性组合啊,它本质上可以构成一个子空间。
所以矩阵你应该上升到子空间的概念去看矩阵。这实际上是第三层理解。那么很多人可能这个地方没有。但是我们今天会把这个去讲一讲,看看是个什么样子啊。然后我们来看一下这个矩证乘法。
我要矩证乘法AM乘NB等于K乘N,大家这个大家肯定多少都是记得的,就C等于A乘以B,对吧?那么它的尾数就是M乘N乘以K乘以N,最后的尾数就是M乘N。比如下面这个矩证。
14153210相乘完以后就是7282。那么矩证乘法实际上有4种表示形式。我们当时学的时候,肯定是大家主要想的都是第一种就是实际上就是比如这个数字七是怎么来的。
就是矩证的第一行一4和呃矩证第B的第第一列31。相乘呗,就一乘3加上4乘1就等于7呗,这就是第一种内级表示,就是矩阵的第一行,就第一个矩证的第一行乘以第二个矩阵的第一列做内集,所以就是7,然后282。
大家可以算一下,就是这样的一个简单的形式,对吧?这是矩阵的第一种内级表示是我们线性代数书上的一个基本啊,这个这个大家我想信都会成。但是矩阵的第二种就是一种列的表示就不太一样了。我们看一下。
如果我把矩证B分成列的话,就31看成一列20看成一列。那么矩阵C就是7822,这是C。那么78它实际上是由什么构成的呢?它实际上是由矩证A1415乘以31构成的。也就说白了。矩证的C的每一列。
实际上都是A乘以B的每一列,对吧?这是A乘以B的每一某一列。那刚才我也说了,A乘以BI它实际上是什么呢?实际上是矩证A的线性组合。矩阵A的线性组合,它的系数是B啊。
所以可以说矩证C的每一列都是矩证A的线性组合构成的。这就是我们从成矩证的更高的角度去看这个东西。然后第三种表示呢是矩阵的行表示,矩阵的行表示什么意思?就矩阵。你你我们看那个矩阵C72。
它这一行它是应该是由什么构成的呢?它实际上是由矩证A的第一行14乘以矩证B。3210构成的这就是我们从行去看矩阵。那比如说82矩证C的82这一行,它实际上是我用这个荧光笔比较好。对,矩阵82这一行。
它际上就有矩阵A的15这一行乘以矩证B这一行得到了。对吧这是行表示,我相信这三种表示,可能大家都或多或少是知道的。但是第四种表示就比较有意思了。那么第四种表示实际上这个这个矩阵C。
它实际上是由矩阵A的第一列和矩阵B的第一行做什么,做外级就是A一乘以B一的转制。就是这两个矩阵,实际上它都是制为一的一个矩阵。但是我们做了外级以后,我们可以把它构成一个矩阵,这就是构成了一个更大的矩阵。
那么实际上就是这些矩阵制为一的这些矩阵的求和。你看我这个图上就标的很清楚。C呢是A一第一列乘以B一,就是B一的转制公呃,B一的转制,实际上就是就实际上就这一行72这呃这个32这一行。
那么AK呢实际上就是我们刚才所说的一样的45乘以一列这一行等于82。实际上这是矩阵乘法的四种形式,大家可以下面再去复习一下。然后我们现在看一下就是线性代数的基础啊,线性代数基础其实是很重要的。
因为你要其实你要把矩证搞得很熟的啊,线性代数它是它又是矩证的基础。那线性代数因为大家是都是在本科学的,很多人都忘了,我们在这里复习一下,如果一个限量级是线性无关的。
我们就说他们这个线性这个AJCJ求和以后等于0当界顶当CJ乘以一直CE一直到CN都是0。也就是说。你把这个A1AN,我们现在把它写成一个矩阵的话,它实际上就是AX等于0。那么只有X等于0。
才能使得AX等于0。也就是说没有其他的线性组合能够产生0。那么这一级向量呢,它实际上就是线性无关的。大家想想,这向量,它我们把它放在一起,它就是矩阵。是所以你向量和矩阵你要经常把它进行一些转化。
那么比如说现在像这个向量A等于那矩阵A等于A小A1A2A3,就是这样的一个。我们可以看一下,这个它的列就是线性无关的,又为没有其他的一些非零的系数,能够使它们的线性组合等于0。但是B就不是,因为B的呢。
这一列实际上就是这前面的这两列的线性组合。比如说这个乘以-1,这个乘以-2加起来就是-3。所以我们有可以找到C1到CN,使得它的系数为0,那么它就是这种向量的这一组向量它就是线性相关的对吧?好,呃。
我们线性相关这个地方,我们稍微讲完下一个的时候,我们就稍微呃大家提问一下啊。然后我们看一下这个悬度啊,这这个我忘了中文叫什么,反正英文就叫span呢说白了实际上就是这个AEAN这些线这些向量的线性组合。
我刚才一直在强调AX矩阵A乘以X,它就是矩阵A的每一列的线性组合,实际上你把这个AEAN写到一个矩阵里头,它实际上就是这些列的线性组合。那么这些线性组合我刚才所说了。
它就可以构成一个我们更高的第三种视角,就是子空间。那么AEAN的所有线性组合,我们就构成了一个子空间。就记住是所有的线性组合,不是一种线性组合,这个CG,你可以取实数域的任何数,它都可以构成一个子空间。
那么子空间实际上在严格的定义上可以满足下面两个条件。就是说V和W如果都是子空间的两个向量呢,它们的和也处于这个子空间。那么CV就是乘以一个系数呢,它也处于这个子空间。但是大家一定要记住。
就是子空间一定包含零向量。子空间一定包含零向量,就这个CG你也可以取零,那么它肯肯定可以构成一个子空间,但是这个子空间一定构成一个啊,一定包含零向量。所以我们在这里呢就稍微展停一下。
看看大家有没有什么疑问。我们对,现在进行到呃3分之1。现在大家应该可以自由说话。对啊,这个问题非常好,就是这个弦,我们这个span实际上是一个一个线性操作。我们对A1A2,它这是一个定义,实际上就是。
啊。啊,我刚才可能没听到这个sd A1A2,实际上就是A1A2的线性组合。它实际上就是说这是一个定义。spand A1A2实际上就是A1到A2一直到AN的线性组合就构成了子空间。
所以你可以认为这是一个操作,spen就叫做操作。哦,我看看题目啊,A1A2一直到AN就是一些N个向量,就是A1到AN的N个向量。然后看这个题目啊,就是A是M乘N矩证,B是K乘N。那么C为什么尾数是M啊。
这个地方写的有点问题,不对,这个地方应该是A是M乘K,然后B是K乘N,所以它是M乘N。对我们在这里面全部是列向量。CV是指V的啊前面乘一个V向量,前面乘以一个标量CV,那么它也在这个子空间里很正常。
比如说你有一个向量,现在三维空间里啊,它现在是个三维空间里,我乘以一个系数。无非就把这个向量给拉长或者缩短了嘛,它还是在这个空间里嘛,对不对?Y为何是M为?Y为何是M为?我看一下Y没有看到Y啊。对。
我们在这里头所定义的时候,我大家给大家解释一下,我们这些粗体定义的A1到AN,它都是向量。我们这个小的C这种这种鞋体的,我们都是标量。我们在这里头所有的都认为是列向量,行业上不说明的话,都是列向量。
那么如果行向量怎么表示呢?我们就写成A一的转制,这是行向量。那span实际上就是这些列向量。的所有线性组合。刚才我讲了,所有的线性组合,它就构成了一个子空间。那么这个span就和这个子空间是等价的。对。
RM是M为的一个向量。也如说你这个A1AN是个列向量,但是这个A一它有可能只有M长,所以它就是M为的列向量。啊,这个你截图很好,我刚才所说的这是矩阵的第二种视角。
矩阵的一行乘以一列是你之前学的矩阵的乘法,但是矩阵还可以用。这样的形式去表示就是列的线性组合,就AX乘以B可以用列的线性组合去表示。C是有角标的,这里头C是有角标的。C因为你可以C1乘以A1嘛。
加上C2乘以A2,加上C3乘以A3就等于S子空间。我看有没有笔啊,好像他这个上面好像没有笔,好像可以用的。我尽量用这个好了,用激光笔来好了。好,我们现在继续啊。那么我们现在看一下四个子空间啊。
刚才所说的子空间大家就想到是肯定就是某些向量的线性组合。就是某些限量向量的线性组合。比如说这个A现在这个矩阵是A是142033,那么它的span怎么写?实际上就是142033的所有的线性组合。
因为这个所有的线性组合是指X1和X2可以取任何实数。所以大家可以看一下,假如说。033这样的一个向,现在我们现在看这样的一个向量。我们这个列空间呢实际上就是142这样的一个向量和033这样的一个向量。
我们做线性组合,那么它肯定就构成了只构成了一个平面。大家想想这是一个三维空间。你在一个三维空间里,你这两个向量的线性组合。那么它只能构成一个平面,对不对?它实际上只是一个平面。那么这个平面大家记住。
它一定包含原点。如果在三维空间中不包含原点的平面,大家想想它肯定就不是子空间。因为它不包含原点,对吧?所以AX等于B本质上是什么?大家想想AS等于B本质上就是说这个方程有解的前提就是说B在A的列空间内。
你这个B向量一定在这个平面里。你不能跑到三维空间的其他地方去。如果你的B跑到三维空间的其他地方去,那么这个方程式肯定没解的。对不对?所以这时候。我们的B组合本质上就是X1和X啊。
就是142033的线性组合。你不是这个线性组合,你跑到其他地方去。那么他一定这个方程没有解。对不对?实际上是本质上就是这样的一个裂空间,列空间就是这个这个列空间和刚才那个悬度S span其实是一样的。
大家可以把这两个等价,我觉得没有关系,实际上就是142033的span嘛。对吧。为什么两个三维向量构成的是平面呢?你可以想象,你现在只有你你正常的三维空间,你要够这个空间,你要如果能够填满的话。
你是不是至少得要有三个向量?但你现在只有两个向量,你想想你能把一个空间填满吗?它只可能构成一个平面呀。大家想一想啊,这个地方稍微我想一想,我觉得这个地方大家能够理解清楚的话,今天是非常有收获的啊。对。
所以就是两个向量,你可以去想它所以这个为什么这个矩阵的质是二呢?因为它只有两个向线性无关的向量,这两个向量还是线性无关的,所以它构成一个平面。大家想想,如果这个0335现在变成142。
就这两个向量是一样的话,它能构成一个平面吗?它连平面都构不成,它只是构成了一个直线,对吧?这两个限量一定是线性无关的情况下,就是说他们不重不重合,不在一条线上的情况下,他们才能构成一个平面。
如果在一条线上的话,他们就只能构成一条直线,对不对?所以这就是这个里头大家理解清楚了以后就知道,如果142这个列也是142,那这个矩证的质是几啊,这个矩阵质只是一啊。
所以矩证的质就是它线性无关的这个最大的线性无关的这个列。三个向量一不一定能构成空间。我所说的142033,我现在加一个空加一个向量,142。如果142又第三个空,第三个向量又是142。
它不是跟第一个向量是一样的吗?他们就线性相关了呀,所以它就构不成一个平面啊啊啊构不成一个空间啊,它构成的是平面。一定对于这样的,我这个举的这个例子,一定是三个线性无关的向量能够构成一个空间。
这是才满的空间啊,就叫做我们叫做R3,对吧?我们叫做R3。好,那我们现在看看这个如果大家能够理解的话,我们看看下面一个啊。下面就是零空间,啥叫零空间?就是说我们现性方程组不是之前的是AX等于B嘛。
我们看到这样的一个线性方程组,AX等于0,它所有的解的集合就是叫做零空间。那我们先来看这个例子,AX等于B的解偶。我问大家能不能形成一个子空间?对于一般的BB不等于零的情况下。
那么答案是它不能形成一个子空间。为什么?我刚才所说子空间一定要包含原点000,那你AX等于B,它能可如果对于B。这个B任意取B的话,你X等于0。那这个左边是零,后面是B,它根本就不是子空间,对吧?
它就不相等,所以AX等于B通常情况下,它的解并不形成一个子空间,但是AX等于零的所有解,它就形成一个子空间。我们这个子空间呢我们把它定义成NA啊,大家看刚看一下我这个标识啊。
CA我所说的CA就是列的子空间C就表示collum就是列。那么。😡,NA呢实际上就是零空间,就是NA我们就说n就是零空间,它就是所有解的集合。那么我们看一下这个比如说我举个例子,我都都以数来举。
因为这种数学就确实比较抽象啊,我们尽可能的以这些数字来来看。比如说矩证A12243866。我们让AX等于假如说OAX等于0,我们要求一下X的解集合。那么怎么解呢?
实际上就是说大家我记得举证书上呃那个线性代数数上的一开始讲完行列式就开始求方程组的解,实际上就是说我们把它做一些高速消元,实际上是第一行乘以3啊乘以-3,然后加到第二行就得到12240204。
然后通过这个方程,我们就可以解的求得两个线性无关,注意是两个线性无关的向量。那么这个零空间大家看看是什么。实际上零空间实际上就是这个向量S1和S2S1是它的解,S2也是它的一个解。
是这两个特解的什么线性组合。我在这头又强调了一遍,是线性组合,所有的子空间都是某些向量的线性组合。是,而且是任意的线性组合。所以这个XS1S2呢,你要写它的零空间很简单。我前面写一个。
比如说写个写个写写个标量A,加上BS2,它的所有的线性组合,对吧?我们就是它的零空间,这就是它的一个AX等于零的一个解。注意这两个是线性无关的啊,这是这是个零控件。刚我们刚才学了一个一个是列空间。
现在学了一个零空间啊。对吧好,我们在这里头要不要答疑一下,看看大家有没有什么问题。就是这两个空间子空间大家有没有?刚才所所说的AXKB不是子空间。因为呃B如果不为零的时候,你那个这个子空间X这个解0。
不满足这个方程,而子空间一定要包含原点。子空间的几何意义。子空间的几何意义实际上就是一些线性,实际上就是一些向量,它能够张成的空间。就比如说像这个列空间。
实际上不就是142和033这两个向量所有的线性组合。那么就是它就所有线性组合所张成的一个空间。那么在这里头它就是表现成为一个平面呗。求子空间有什么用?非常有用。这个我在后面来说,非常有用。
因为如果你能理解到子空间的概念,实际上你就把线性代数啊基本上就是说一个重要的核心能够理解到,而不是光光去做了一些AX等于B,X等于零的这种题啊,这种是没有任何意义的,这种交给m labb去做就可以了。
关键你要理解这里面这个子空间这些概念。对。和先秦方程组的基础解析有什么?像像你这个就是像我们这个零空间,它不就是有两个特解嘛。那么AX等于B本质上是什么?实际上就是AX等于B这个这个的它的所谓的解呢。
实际上就是。它的一个特解就是能够满足这个方程的一个特解,加上它的零空间。里面的所有向量。因为这里头的这个这里面的所有的线性组合,它都能够使得得AX等于0。那么你再找到一个特解,使得AX等于B。
这两个加起来不就是AX等于B的所有的解吗。在第维。类比嘛,两个点的任意组合构成一个你我们你现在要想的时候都是要考虑向量。比如说你用三维空间这样的或者是二维空间这样去思考是最好的。你要用12两个点。
实际上就是一个直线了。你比如说你一个矩阵是两行一列的。😡,一个矩阵是两行一列的,就是1乘12。啊,就比如说一个横向量12,那这两个点是肯定是线息相关的嘛。他们因为他们在一条直线上呀。
S1和S2是怎么得来的?很简单,你现在不是得到U吗?然后你U这个地方你写成一个列列向量,就是因为它是U乘以X等于0,所以就X1X2X3X4。然后你就把这个这个写成一个线性方程组呗。写成线性方程组以后。
你让X3X4等于分别等于10和01,你就可以把X1和X2求出来,对吧?呃,子空间是不是坐标系,它大家想想我刚才所说的是个三维空间。但是你想想我们如果这个向量再往上扩,它不就是更高维的空间。
这时候你就没法拿图来画了,你就只能用三维空间去往上类比了。比如说我是现在这个向量长度是14260337。那么实际上这两个向量,它最后形成的是R几的一个子空间。大家想想是R4。注意不是R2的一个子空间。
是R4的一个子空间。因为它这个向量的长度是4,所以它形成的是个R4的子空间。你要想把R4这个子空间填满。那么它一定要需要4个线性无关的向量,对不对?如果你只有现在只有两个线性无关的向量。
你只能构成一个子空间。就说C是RM的子空间很简单,就说我所说的,它是像这个矩阵,它实际上是R3的一个子空间,并不是说是R2的一个子空间。你现在看的有两个向量,你以为是它是R2的子空间。
不是它是R3的一个子空间,对吧?NC是NA的子空间吗?为什么要写?C是什么东西啊?没有看到这个C表示的是列空间的字母。而那个NA表示的是零空间的这个这个东西。啊,当然我们不止这些这么多子空间。
就是说前面的我们有一个子空间的定义啊,但是那些子空间我觉得我在这公开课上就不去讲那么多了。因为那样的话,大家就会被很多东西误导了。我觉得你能把这个矩阵的这些子空间能够理解到。
再去考虑其他子空间就会很容易。而且在我们实际过程程中,大部分应用到的就是矩阵的这四个子空间啊。NA是个平面吗?NA是不是平面,你要看这个向量,像这个向量,它实际上就是这两个向量,当然你这个已经没法画了。
因为是个四维空间,对吧?它本身是个四维的,所以但是它实际上这两个向量的线性组合,它就就构成了一个什么,实际上就构成了一个子空间,对吧?但实际上就构成了一个子空间。CA是RM的子空间,我看一下啊。
那么实际上就是说CA是RM的子空间,就是你看你看这个向量,如果要求CA的子空间,那么CA是什么的子空间呢?它实际上是R3的?这个M因为是三嘛,N是2嘛,两三行两列嘛,所以它是R3的子空间。
并不是R2的一个子空间。明白吗?因为你你这有向量长度是3嘛,你要构成一个三维空间。好,那我们现在开始下一个啊,然后后面有问题我们再来回复。然后行刚才我们定义了两个空间啊,一个列空间,一个零空间。
那么还有一些空间叫做行空间,比如说CA的转制共轭啊,不是CA的转制。因为我老想到辅数,我们这个是实数啊,就是CA的转制。像比如说这个这个举阵。那么它的子空间是什么?实际上就是这些行。
你把这些12243866,你把它再写成列,就是相当于把这个矩阵转制一下,也就是1224和3866,这两个呃这两个向量的所有的线性组合,就构成了子空间,对不对?还有一个左邻空间。
我觉得是我们国内的教材是从来不讲的啊,像这个是很不好的。那么左零空间呢,实际上是刚才不是说有个零空间是有NA的。是零零空间嘛,那么NA你把它转制一下,变成行,那它不是还有一个零空间嘛。
也就是这个时候零空间什么意思?就A的转制乘以Y的所有的能够满足这个方程的所有的解的集合,就构成了一个左零空间。对,实际上你就把这个举矩证颠过来一下吧。我来总结一下啊,这个地方列空间CA。
零空间NA航空间CN的转置左零空间NA的转置。好。这时候我们来复习一些,还是有一些重要的关系啊,鸡。基向量是一直是指它能够张成这个子空间,而且是指这个子空间中任何最大线性无关的向量,它并不唯一。
我刚才一直强调这个向量是线性无关的,你比如说像这个矩阵A,我问一下大家的那个CA怎么写C实际上就是这些线量向量的所有的线性组合。我不管你这个向量是不是线性相关还是线性无关。
这就是CA但是这个它构成的这个子空间,它有一个最大的线性无关的向量。那么这个实际上只有这前两列,因为第三列实际上是前两列的线性组合,所以它这个子空间实际上就是由基上成的。你看到吗?
比如说这个子空间它有肯定有很多很多积啊,这很正常。但是它的基的个数。是唯一的。那么积的个数又等于什么呢?实际上就是等于矩证的质。最大线性无关组说的很好,它实际上就是R就最大限性无关组。制是什么意思啊?
实际上就是这里面最大的线性无关的向量,最大性无关的这个向量构成了什么和G呀?😡,他的基就是说反正你你这个矩阵在这里,我只要有这个基,我就能够把你这个空间给你张成。
我其实就根本要不了这么三个向量去粘张成你这个子空间,我要两个向量就够了,这就是基。所以由击我们就可以引入矩阵的质。矩阵的质呢实际上就是最大限性无关的行或列。我在这里头我只说列啊,因为行其实是一样的。
它只要做一下转制就可以了。所以矩阵的。A的转质的质和A是一样的,就行制等于劣质。对。A的第三个列,如何用第一和第二个列表示很简单呀。第三个列我这个一乘以100。再加上呃。啊。
这个里头好像是230是有一点问题啊,我这个符号这个地方写的有点问题,这个这个他他应该写的不对,这个地方就是这一列还不是这一列章程的这个子空间。因为呃刚才我这个举证写的有点问题。
就是这一列并不是他们的线性组合。因为你看啊你乘以一乘以一加起来第一个等于3。但是这个呢大家看加起来它是负3了,就不对。所以这一行正常应该写怎么写啊,我大家给从给大家重写一下,它实际上是3。30。
我写到这里啊,330。所以这个呢就不对啊,这个地方这个地方应该写成330才对。所以这样的话,你可以看到第三列实际上就是前两列的线性组合啊。对吧所以这个矩阵的制在这个矩阵,现在这样的写法,它的矩阵制是3。
但是我刚才现在重新改了,改成3330的这种情况下,它的矩阵的制就是2,所以行制就等于列质。对了。好,我们看一下这个子空间的这个维数啊,子空间的这个维数是什么意思啊?实际上就是子空间的维数。
就是CA这个子空间的维数,实际上就是大家想想CA子空间的维数,实际上就是A的质啊。就是R小R,我写的数字,就是写写在这里啊。如果它是小R的话,那么它零空间的尾数呢?
实际上就是这个零空间的线性无最大的线性无关的限量向量的个数,它们俩加起来就等于N。就是我们现在这个所有的矩阵都是M乘N的一个矩阵。我在这头标的时候,所有的矩阵都是M乘N。那么如果CA的尾数是R。
就是它这个矩阵质是R的话,它的零空间的质就是N减R。那么这头我也也就标的很清楚了。对,就是它的尾数,所以所说的尾数就是矩阵的质啊。那么实际上CA又是什么?就是这些列的线性物这些列的所有的线性组合呗。
那么他因为有两个线性最大的线性无关的列。如果把它改成330的话,它只有两个,所以它的质就是2呗。对,所以如果当。矩阵的质等于M就等于行的行数的时候,它就是行满值。当等于列数的时候,它就实际上是列满值啊。
这样是矩证的一个一个关键的一个点。这是质。那么我刚才讲不是讲了四个字空间吗?大家想想你这四个子宫间,它肯定能够构成一些图形啊。实际上这个这幅幅图,我认为啊是线性代数最最最漂亮的一幅图。
但这幅图没没有画完。因为如果你要把它画完以后,还有把这个方程组的解都可以结合在一起,它就能够构成一个完整的一幅图啊,这幅图我相信在我们中文的任何一一个教材上都是不会讲的啊。我们再来看一下。
刚开又是我们最先讲了一个列空间,对吧?就是矩证AX的所有的线性组合AX就实际上就AX我们把它标记成CA,它的尾数是R,就是它的质是R。那么我们又讲了一个他的零零空空间。AX等于0。我们又讲了一个零空间。
对吧?那么这个零空间的尾数呢是N减R。那么实际上这个零空间呢又是这个行空间,我们还讲了一两个两个空间,一个是行空间,一个是左零空间,对吧?实际上我们从这边R先来看,如果矩阵的列空间呢,它的尾数是R的话。
那么另一半。它的左邻空间,它的尾数就是M减2。大家去可以去下面去看啊,而且这两个。空间。何在。普间啊它占了一部分,它占了一部分,所以合在一起。
它俩就是一个完整的一个空间RM就是这里如果有个向量在这里头有个向量在这里头,我把这两个向量再做一下线性任意的线性组合,我就可以构成RM中的一个向量。RM和这个零空间和列空间,它俩是相对的啊。
它们只是有一个维数关系啊。他实际上是零空间要和它的航空间对在一起,为什么?你看啊你AX等于0是指能够使得有一个X,使得AX等于0。那么你的行空间呢实际上就是说因为你AX,你可以看成A的每一行。
某第一行乘以X等于0。A的第二行乘以X等于0。对吧这是A的。从行的看度看出,然后它的这个行空间的这个定义呢是A的每一行的线性组合。A的每一行的线性组合,所有行的线性组合。对不对?
所以这个A的行的线性组合和这个零空间呢正好就构成了一个RN的,它俩所每一个都是子空间,合在一起就是RN。大家去想一想这个问题啊,而且这两个子空间还不只是这么简单的关系。这幅图更妙的是。
这个大家看这个夹角,这两个子空间的夹角实际上就是嗯。90度啊。90度为啥是90度呢?你A乘以Y的所有线性组合构成一个空间,你的零空间是能够使它这些基组这些AX等于0。
你AX不就是每一行乘以一个向量等于0吗?大家看看这不就正好是90度嘛,垂直的这地方是比较抽象。但是如果你能把这幅图真真切切的理解到,那么你线性代数。很大一部分你就搞通了。
这个地方我觉得一下子让大家完完全全讲懂是有点困难。但是大家记得有这样的一个印象的一个图啊,然后我们的列空间一样的是AAI。所有的线令组合。那么左邻空间呢实际上是A转制乘以Y等于0,实际上就是一个矩阵。
A,你把它做一下转制,然后能够构成这样的一个四个字空间。啊,所以再再说一遍,矩阵的列空间和它的左邻空间。他俩的尾数加在一起就是M,它的数是R,它的尾数是M减R,合在一起就是M。这个它的行空间。
它的尾数是R,它的零空间,它的尾数是N减R合在一起,它构成RN的一个子空间。这个图报。啊,理解的时候,大家去就可以把那个矩证拿出来自己去去翻导翻导啊,这个图就会稍微好好理解很多啊。
我觉得相对啊这个下来我觉得大家再花点时间在这上面再去好好想想。因为这个时间有限。我觉得如果你能把这幅图理解到了,你很多东西就能够掌握。比如说。我现在比如说有一个向量在RM。
那么我就可以把它分解分解成一个向量,在列空间内,一个向量在它的左邻空间内。这实际上就是干干什么呢?在做投影啊。这个其实是很重要的一点,就一个向量。那我在RM空间中的,我既不在你这个空间中。
也不在你这个空间中。那我但是我可以把它分解成这两个空间中的向量组合呀。维数是什么?尾数是这个向量的最大的限性无关的向量的个数。也就是这个这个空间的质啊,就是啊从从矩证角度上来说,就是这个矩阵的质啊。
这个地方大家再去想一想啊,然后我们再再找找下一页的时候,我们把这页讲完以后稍微。评论一下,大家答一下疑啊,就说这个线性方程组的解啊,就很多人学完了以后也搞不懂,反正这个AX等于B到底是有解还是没解。
反正学完了以后,其实是一堆浆糊啊。但是我们总结一下,就说当一个矩阵如果是方阵的话。R等于M,就是它的质是M行制等于列质,正好一个方质,它是满制的矩阵。那么AXB只有一个解。
因为这时候矩证A可逆两边乘以A逆,我们就可以得到这个解。而且为什么这个方程?B一定有解,首先它为什么有解呢?因为你这个就相当于一个3乘3的一个矩阵。如果它的质是3,就说明这三个向量是线性无关的。
那你这三个线性无关的向量,你显然显然可以。构成什么构成一个整个的三维空间。那你这个B向量是在三维空间中,你不管你做,不管你拿任何一个向量来,我都能找到一个线性组合,使得AXA于B。这就是矩阵满制。
它的这个它的意思,它就它的向它的列都是线性无关的。那么还有一种矩阵,它实际上是宽矩阵,就R等于MR小于N的情况下,它实际上是一个宽的矩阵。就是这样的,就是这样的,我们将胖的一个就是这种胖矩阵啊。
我们常常说,那么这种方程它一定有无穷多的解。因为我刚才所说的它的零空间的尾数,实际上是N减RN减R是N减M也就AX等于0。首先AX等于0,它就有无穷多个解,因为它是这些这些这些解的线性组合嘛。
它就零空间它就有维数啊,它就有无穷多个解,那么AX等于B的解。我刚才所说是什么呢?是它的一个特解,加上零空间的所有的解,那么当然有无穷多个解。可能刚才有的地方是讲的不对啊,尾数和矩阵的质不等啊。
这个地方不对啊,有的地方呃我看尾数和矩阵的质部等。呃。不对,如果你比如说像CA啊,就刚才所说的这个列空间的尾数啊,列空间的维数本质上实际上就是把这些把这些列全部写成一个矩阵的,等于这个矩阵的质啊。
尾数实际上就是这个。它的这个最大的线性无关的向量的个数啊就是质啊。所以我这个地方写成D码,实际上就是rank A,就是A的质,实际上就是啊。大家再去想理解一下啊,然后长矩阵就是R小于M。
R等于N就是这样的一个长的矩阵啊。那么这种AX等于B有零或一个解。我在这个地方,我把这个地方稍微给大家解释一下啊。这种长的这个矩阵啊。首先就是很很好理解。你可以看啊,像这种举阵。
比如像像我看啊像这种矩阵,像像这这两个向量构成的一个矩阵。那么如果我把它写成一个向量,写成AX等于。B的情况下,我刚才所说,如果这个B根本就不在你这两个向量章程的空间内,章程的子空间内,那完全有可能呀。
因为这个它它俩构成的向量只是R4的一个子空间。你现在有个向量可能在R4的另一个方向就不在这个子空间内。那么这时候这个方程显然它就没解。对不对?他显然就是没减。如果它有解的话,它一定有一个解,很简单。
那就是个B,它在这个A的这个子空间内,A的列向量章程的子空间内,那么它就一定有一个解。就像我刚才所说的三维空间中,有一个向量,它正好是在那个一个平面上,就在刚才那两个向量章程的平面上。
那么这个方程是一定有解的?那么这头就有个问题,为什么会引入最小二程,我给大家解解释,就是我们在在做图像做很多里面都有最小二程,它无非实际上就是这个矩阵,这个B啊不在AX章程的空间内嘛。
它跑到其它它在它在一个比如说在R4的一个空间内,它并不是在R4的一个子空间内。那么这时候我们要找一个离这个解。就是离这个找到一个解,离B距离最近。找到一个解离距离最近,这就叫做最小二成。
B你现在AX等于B,我说了,它有解或者有零解或者一个解啊,好,我今天运气好,我这个B是吧,给你了一个B,它正好在这个子空间内,那我们就马上就把这个一个解就找到了,对吧?找到了。那现在还有一个呢。
这个B不在这个空间内啊。比如这个图。这两个列构成的向量。啊,这两个列构成向量,这个B现在在这个子空间内,现在我这个B跑这来了。大家看。那么你能找到解吗?显然你肯定找不到解呀,但是我们为什么要最小二成呢?
那么我们实际过程中不可能让你永远AX能等于B吧,就是你个B永远在你这个空间内。所以我们要找到这个空间内呢,找到一个解,在这个空间内找到一个解,使它的距离和这个B,最后AX等于B的距离最小。
这就叫做最小二程。那么这里头要用的什么东西呢?就是用到投影。实际上我把这个向量B投影下来,我就一定能够找到这个题。大家再去想想这个问题啊,这个我觉得从这个问题其实可以想到很多问题。
AX等于B有没有有零解或者一个解啊,这实际上就是把这个最小二承同了。第一种,我相信大家在现行段时候都可以看到嘛,就很简单,3乘3。这些这三个列都是线性无关的那管你给我什么B呢。
那肯定他都都都只有一个解啊,因为A是可逆的嘛,然后B肯定又在AX这个章程这个空间内嘛。大家想一想,还有一种情况下,这个地方可能没写啊,就R小于M。R小于M。这种情况很少很很少见。那么这种AXB呢。
它要么就没解,要么就有无穷逻辑啊,这种大家可以自己根据前三种总结一下就可以得到。我在这头暂停一下,看看大家有什么问题。就是说我今天的想法就是我不求大家能够把这个完全听得懂啊。
因为大家有的时候就前面都忘了,但是我希望大家从今天开始听完这个课以后,能够以子空间的观点去理解矩阵。而不是说我们把一堆数括起来,加个括号就叫做矩阵啊。这种是太浅显的理解了啊,我们要以第一层理解。
就是一个AX,就是就是一就相当于一个矩阵乘一个向量,就等于一个数呗。第二层理解。是矩阵列的线性组合。第三种理解是这些线性组合,它就构成了一些子空间啊。那我么实际上就构成从子空间的观点上去理解方程组的解。
就会更容易去理解啊。长举阵的时候有一个解,有一个解的时候不懂,很简单呀。长举站,我现在这是不是长举站?😡,这就是长矩证嘛,142033。那我现在有个矩阵,有个向量B就在他俩章程的空间内。
那这个方程不是肯定有解吗?这个比如说B就是它俩的列的向性组合。你这举个一这取个一,我得到一个B,那我的解是什么?不就X等于一,X2等于一吗?能把解理清该子空间的一个点吗?这个解的本质上是什么?
实际上就是这个列的线性组合的系数啊,就是你这两个向量用什么系数去合并得到这个解啊,得到B啊,只要你这个B在这个空在这个平面内,我总可以肯定能找到一个什么系数,能够让你等于B吧。
但是大家想想我这个B如果不在这个二维空间的啊,这个平面上呢,我这个B跑到这个三维空间往上走呢。你能找到姐吗?你能找到它的线性组合,使它使它的吗?能够等于B吗?那不可能啊,因为这两个是线性无关的嘛。
它它俩能够张成的子空间,就只能是个二维平面,它张不成三维空间呢。好吧,呃,如果没什么问题,我们因为时间有限,我们再往下走一走啊。后面的就比较简单了。就后面的就是我说实在的。
也无非就是把那些书上的拿过来去给大家讲一讲。但是前面的这些东西,如果你能把这些透彻的理解到,我觉得呃肯定是受益匪浅的。那这个方程就很简单了。比如说矩证可逆和不可逆。那矩证可逆,实际上就是AX等于0。
它只有零解呗。说白了就是A一这些矩证的所有的列项量都线性无关。那么他就只有零解。那么矩阵可逆呢,实际上它有一些公式就A乘以A逆等于IA乘以B的逆,这些都是一些线性代数常见的公式啊,我就不多讲了。
大家可以看一下啊,这是矩阵的逆,那矩阵逆啥意思?就是A乘以A逆等于单位正呗。那举阵例,你要理解到这一点,就是它的列向量一定是线性无关啊。在这里头我们说的是方正啊,是这个地方写的写的标号错的啊。
这是M乘M这个地方所以是A一一直到AM线性无关。行列是。定义大家去看一下书啊,我就不说了,因为那个鞋线还比较长。啊,它的行列式有一些公式,比如说行A乘以B的行列式是A的行列式乘以B的行列式。
它的转制两边取行列式,它是相等的。如果乘一个系数呢,它要提一个M次方出来。因为行列式一定针对的是方正啊。那么如果举证可逆,就说明它的行列式应该是什么?等于零,对吧?那么如果举证可逆。
它的这个行逆的行列式实际上就是行列式取导数。那么如果举证B可逆的话,它的行列式这样的一个行列是B逆AB实际上就是A等于德taA就是A的行列式,这个很好证明啊,你把这个把上面这个式子拿下来。
然后把这两个结合起来,就可以得到这个式子,很简单啊。然后矢量的范数啊范数实际上就是说我如个比如说FX这个这样的一个函数,它首先它是大于等于零的,它一定是正数正。要么是等于零,要么是大于0。
然后当气紧当X等于零的时候,可逆等于0,可逆等于0。我看一下啊,可逆对行列式就等于0可逆它的行列式等于0啊,你去大家去看看它的行列式的定义是什么。对。对,这个地方是对的啊,可逆以行列是是等于0。哎。
我看看不对。啊,不对不对,这个地方写错了,这个地方写错了,不好意思,可逆行列是不等于0。为什么?如果可A可逆行列是等于零,那就完蛋了。你看啊,你你这个地方取取成零,那个不就成无穷大了吗?啊。
所以它这个地方一定是行列是不等于0啊,对,行列是不等于0,非常好。这个地方我我我写错了。然后我们先看一下向量的范数啊。向量范数就说实际上是第一个大于等于0,第二个X等于0,它FX等于0。
第三个三角不等式。也就是说你从向量的角度上来说,不就是三角形两边之和大于第三边嘛。然后这个地方如果它前面有个系数的话,它就取出来,它就因为是正的嘛,它就说取绝对值。
那么矢量范数本质上是用来测量一个矢量的长度啊。那么实际上就有这样的几个范数,比如说二反数,二反数就是它的所有的元素平方取何开根号,那么就可以写成它内极的形式,就是X转制乘以X求内级,然后开根号啊。
比较简单。一反数什么意思?一反数是说矩证所有的元素的绝对值求和。无穷大范数呢是它里面所有的元素的绝对值求一个最大的出来。P范数呢是这样定义的。那么这个P范数呢必须要P大于等于一。如果P小于一的话。
那么大家可以证明它不满足这个三角不等式啊,所以它就不是一个反数啊,就一定要满足这样的四个条件的。它才能叫做范数啊,这个范数有啥用啊?其实就是说呃我们我不知道群里面有可能有人做图像里面图像处理。
比如说做这个稀疏sse codinging的这些,我们要用到这些压缩感知的这些性质啊,对,要用到压缩感知这些性质的时候。数啊,它实际上就是零范数。举证的零反数,它实际上并不是一个反数啊。
这个也他不定为不满足3那其他这几个条件,它不是它的零反数呢。实际上就是它的非定员的个数。那么这样的一个东西呢,它本质哈你要在做这个spas codinging啊,这个压缩感知里面呢。
它不是根本它就不是to的to函数。所以呢我们经常呢把它relax就是。嗯,一反数。这时候这个这个函数呢,它就是一个凸函数。那么我们就可以用凸优化来解。那么呃这个在压缩板值里在某些条件下啊。
满足某些条件下,它这个零范数的约束和一范数的约束下面求得解。是相同的。所以这就是压缩感知,为什么一下子流行起来的东西啊,就是一范数和零范数这样的一个一个关系啊,这头这个地方我就不做多说了。
大家可以看看压缩感知的上面的一些关系。还有。矢量的内集,这个就很简单了。刚才所说的就是Y的转值乘以X。那么如果X和Y这挑。那么它的内积就是零呗,那垂直嘛不就等于0。如果它平行的话。
那么他们实际上就是他们俩的长度乘积,要么取正,要么取负。因为它有有可能要么是零度,要么180度呗反方向。那么它的夹角呢实际上就是这样定义的,就Y转制乘以X,然后除以它们的向量的模取反的cosine。
对吧?如果正交,那么就是正-2分之派。啊,问我做这个晚点回复啊啊,XY平行的话,那么就是C等于00得到正正派。对我我的主要是现在在做压缩感知啊,这个以及后面的这个机续学习这些这些关系啊,贝叶斯这些啊。
然后科西需这个科西这个叫虚瓦茨不等是吧,应该翻译过来,我忘了啊,然后它就叫做实际上就是X乘以Y的这个它的它的绝对值小于等于X的二分数乘以Y的二分数啊。当前的X等于F2Y。对。
然后这是还有一个叫house holder不等式,也是这样的一个形式。大家可以看一下这个在信息代数书上都有这些东西我就不写证明了。因为我觉得。你直直直去看,你完全能够看得懂的,而且也没有别特别太大意义。
对,然后就比较简单这些东西。那么这一块我们讲完了呢,就第一部分我觉得很重要非常重要。如果你能把这些子空间,这各个方面的,尤其这几个子空间,四个子空间的他们的构成,他们是不是正交的。
以及这个方程组是不是有几你能够融汇贯通的话,我觉得你线性代数,至少线性代数啊就过关了。就是现的过关了。如果你妈这一层没有理解到啊,我觉得你这个线这往上堆,无非就只是往上堆砌啊。
并没有学到这个跟随啊根本啊。因为矩阵还很复杂。我现在讲的并不是完全是矩阵,因为矩阵本质上还需要各种各样的分解。就在这头我今天讲一个是分解特征分解。其实矩阵更重要的分解其值分解,是在哪都能够用得到的啊。
无论图像处理还是哪到处都可以用得到的其其其极值分解。但是这些分解实际上质上都可以和这个子空间联联合在一起,这样连在一起就能够构成一个很好的很大的P。包括我刚才所说的这个这个空间啊,我没有画完。
因为现在只画了很简单的一部分。如果你在想我把那个AX等于B这个方程组的这些解连在一起的时候,我就可以在里头画出各种各样的投影。然后这个解从这边对应到这边,还是从这边对应到这边。
就能够完完全全把信性代数整个相当于全部拉通啊。这个是非常有意思的东西。但是这个因为要到后面把整个矩阵全部讲完,才能把这个P全部跑完。所以这个只是一个非常小的一个子图啊。
现在但是这一点就需要大家花很多力气去去思考去理解啊。因为是是有点难,因为我们现息代书上我都忘了,他讲了没,我都没印象了,反正我当时肯定是没懂。然后我们看一下这个矩阵的特征值和特特征特征值和特征向量啊。
矩阵特征值特征向量我觉得大家可能都能记得到是啥玩意啊,就是AX等于 lambmbdaX但是AX等于 lambdaX反正我当时我印象中我就背了一个这个公式。
AX等于 lambdaX然后怎么去求特征值特征向量给给给我一个具体的矩阵A啊,我把它特征值特征向量求出来不行了嘛?这个这个考试就过了呀。但是当时没理解的这个玩意儿是在干嘛啊。
这个AX等于 lambdaX,像这个矩阵实际上最早的这个特征值特征向量啊是干嘛的,是求矩阵的逆就是它的密,比如说矩阵现在矩阵是A啊,现在这个矩阵还比较小。假如这矩阵是100乘100维的。
我要求A的100次方,比如矩阵A连乘100次。你怎么求?😡,你计算机去求吗?就就一一直这样沉下去,这个复杂度就会。就会很多。对啊,这个地方肯定写的有点问题啊。这个有些可能标注的时候写的问题。没事。
待会给大家讲,那么这时候呢,实际上就引入了特征值与特征向量。我们看一下特征值啊,这个例子我把它去掉。假如说对于这个矩证A4114乘以1010,实际上这个销量是在这里。那么AX乘A乘以X1呢。
一种组一种理解是什么?是A的线性组合是吧?还有一种组合理解是我觉得现在可以用第四种理解来理解AX吧,实际上是对X一做一个旋转。AX也就说A乘以X1,如果我沉了以后,我做了一些旋转啊。
它可能在这头这个图不是很清楚,因为比较小,就是说AX1A乘以X1后旋转以后得到这个向量是41。如果这个旋转的这个向量和你原先的这个向量是平行的。那么满足这种条件呢就是特征值和特征向量。我再说一遍啊。
A乘以一个向量,对这个向量在这个空在这个空间中进行旋转。旋转以后和这个向量还保持平行。这转了一圈又转回去了。😡,还在平行,只是它前面做了一个标量,等于 lamb姆da,它可能有有那个长度上的伸缩。
但是它的角度是完全一样的。这种时候就是求得的东西就是特征值和特征向量。AX等于 lambmbdaX。比如像这个刚这个例子有问题,我就不讲了,比如像这个X3。A乘以。向量一1这样的一个向量。
A乘以X3乘完以后是5倍的1乘以1。实际上不是还是原来的向量吗?因为对原来向量做了一个5倍的伸缩拉拉往上伸了,或者往下往下降了呗。这就是特征值与特征向量的本质啊,就干这样的一个事情。你能从几何上理解。
其实是最好的。其实空间这东西说实在的,用那些数学理解是比较抽象的啊。你能不能用几何理解的话,是就对这个事物的理解后会更深一点。我们看一下这个特征是实特性向量,它最主要有什么用啊?
就如果AS等于 lamb姆daX就刚才所说的转了一圈,还是原来的向量的伸缩。那么。这个拉mber就称为它的特征值。那么X就成为它的特征向量。假如说A是矩证N乘N的,那么它肯定有N个特征值。
但这特征值不一定是完全不同的啊,还有N个特征向相应的N个特征向量。那么怎么求呢?实际上就是A减去兰姆daIX等于0。那么这个方程组,因为你要让它有非零解,你就必须让刚才我我那个行列式那个地方。
我就就说错了啊,实际上这时候应该是它等于0。如果它可逆的话,它是应该不等于0。那现在我就是要让它不可逆奇E的。这样它才有非零解。所以。德塔A减兰姆达I就等于0。啊,实际上是这样的一个东西。
那么你就求解这个方程,就能把lam姆daX怎么求大家去翻一下现性代日书啊,那个那上面的例子多的很,我我主要是讲一些概念,我觉得计算计算并不是主要的啊,因为mat一个命令就出来了。那么有几个性质。
如果AXI等于姆daXI它有N个特征值和特征向量。这个地方应该是拉姆达I,我少写了,如果它的所有的特征值都不相同的话,那么可以证明它的这些特征向量是线性无关的。特定向量是线性无关的。
那么此时A可以被对角化为这样的形式。因为线性无关,V呢实际上就是这个X1X2N的这些特征向量构成的矩阵。那么这些特,它既然是线性无关,它就可逆了。所以你把这个A呢就可以进行对角化。
就是V乘以兰姆达乘以V乘以逆。好,现在大家想一想,如果这时候我要算A的100次方。如果能对角化的话,A的100次方。你们算这个玩意儿怎么怎么解?就说这时候你还能你还需要蛮力去算吗?不需要蛮力去算了呀。
因为你如果一旦对角化了以后,这些V逆乘以V这些不是都都都都都全部都消光了嘛,那最后就变成了V。中间的lam姆da的100次方乘以V嘛?啊,中间兰姆da是什么?它是它的特征值啊,它是个对角矩阵。
不就是它的对角圆的100次方吗?所以A的100次方马上就算出来了,你需要把A乘100次方,没必要啊,对吧?这是这是它一个它最牵引中的一个很小的例子。但实际过程中这个特征是非常有用的。
因为它可以和这个子空间联合在一起。就不是这么简单了啊,只是我说这是它的一个用处。A的100次方可以很快算啊。那么如果这时候最主要的特征值和特征向量的时候。
最主要的就是我们要求一个对称矩阵的特征值和特征向量。我大家解释一下为啥要求对称值矩阵。如果对称矩阵的特征值,首先它全部是实数,你可以证明,因为特征值啊,它有可能是负数。比如说你求出来的那个方程。
lamb姆da的平方等于-一,它求出来它实际上就是负数啊。它实际上就是负数。那么这时候呢,它这个对称矩阵呢,它的特征值就是实数。我我现在问大家,如果反对称矩阵,也就是说A的转质等于负A。
它的特征值是什么数?大家想想,对,是全的纯负数,纯虚数,好像不是负数,是纯虚数。好了,你大家去想一想,如果在这两个矩阵之间的那些矩阵呢,就有些矩阵既不是对称的。也不是反对称的啊。
那你矩阵就相当于在这两个矩阵之间的这些数,它实际上就是很多都是负数啊。所以我们对这些矩阵并不喜欢,说白了我们并不喜欢。那要么我们就喜欢它纯纯实数,要么就是纯复数。这会就给我们做运算带来很多好处。
你你要来了一堆又有负数,又有实数的这种东西,其实是很不好的。我们并不喜欢啊。但还还还好,我们在实际应用的中的时候,我们经常要求一些比如说一些数据的斜方差矩阵,那么它的斜方差矩阵一定是对称矩阵。
所以它的特征值都是实数。而且如果这个对称值对称矩阵,特征值如果都不同的话,那么它的特征向量不仅是线性无关的,而且是正交的。所以你这个分解就可以变成这样的一个形式,非常好。这个U就变成了一个正交矩战。
这个分解就非常好。特征值不仅是实的,它的特征向量构成了这个U,而且是正交的,构成了一个正交矩阵。然后这个是它的特征值的一些特性啊,我就不说了,它的A的行列是实际上是特征值的乘积。
它的A的G就是它的所有的对角圆相加,是特征值的求和。对,逆矩阵就是转质,为什么?因为是U矩阵,U矩阵就是正交矩阵,就是U的转质乘以以U等于单位阵。那么这时候可以看到,实际上U转制就是U的逆,对吧?
正交矩阵的性质啊,正交矩阵。那正交矩阵你就不需要求逆了呀,就求逆的时候很简单啊,你把转质一下就是逆U矩阵,有所谓有矩阵呢,就是说它是负数的时候,我们把它称为U矩阵。那么这个T呢就改成H就叫it转制。
我们在这头为了简单一点啊,大家讲就全部讲实数啊,就不讲辅数啊,其实在我们实际过程中,大家一定要嗯我反正在我所用的时候,绝大部分都是负数啊,这样的话就是运算起来更更方便一点。那么对称矩阵还有一个特性。
我刚才所说了,对称矩阵,如果它的它的特征值全部是实实的实数,没有负数。那么如果A是一个十对称矩阵,那么它的质如果是R,那R肯定要比N假如说小的话,那么你可以证明它一定有R个非零的特征值。
以及N减R个零特征值。这个可以证明啊,但是大家可以想一下这个你首先就是实的呗,然后你的质又是R,那你肯定有R个正的是啊,不是不叫正的R个非零的特征值和和N减R个零特征值,然后你把这些特征值还能排序一下。
对吧?用绝对值排序去,就变成这样的一个形式。R个N减R个啊,就是这样。那么特征分解就可以重写成这样的一个形式。我把这个U,因为现在是正交矩阵嘛,就是这个A如果是对称的时候,它是正角矩阵。
我就可以分解成U1U2。啊,对焦矩阵我也把它拆开,就按R这样去给它拆开,就这个前面取前R列U的前R列构成U1U2的U2是U的,后面NN减R列,就构成了U2。然后我们把这个就可以拆成这样的一个形式,对吧?
这是特征分解,就按这个矩阵分解去把它拆一下,那么我们现在来联系一下前面讲到的列空间。因为你把这个特征空间搞完了以后,特征值特征向量搞完了以后。
很多人在就可能会想这个玩意儿跟那个特征不是跟那个四个子空间又有啥关系,对吧?因为我说了四个子空间是根本,如果你能把四个子空间理解到了,你再把这些联系理解到的话,那本本质上你就搞搞懂了啊。
实际上这时候你看A的列空间,不就是Y等于AX嘛,是指A的列的所有的线性组合,对吧?就是A的列空间,你把这个X是任意的啊,那么AX就用这个特征分解,把它。沉上去。
刚才我不知这个这个这个这个这个地方我不是已经已经拆开了吗?然后把它乘上去乘上去以后就得到这个式子。然后U一的转质乘以X就把它写成C1。我刚才所说的矩阵你还可以用行的视角去看它呀。矩证相乘。
你可以实际上这个就是U一的转制乘以XU2的转制乘以X,你不是简单的就是一行乘以一列那个那是最基本的思考方法啊,然后这里头呢就是实际上可以得到C1和C2它都是两个向量啊。
然后我们再乘一乘这后面就做一下运算,实际上最终就变成了U一乘以兰姆da一C1加上U2乘以 lamb姆da2加C2而刚才所说的这个兰da二实际上全部是零特征值。刚才如果说它质是R的话。
矩证的质如果是R的话,那么这些全部是零了,后面这这一部分全部都是零的,所以这时候你可以马上得到兰姆da一乘以C1,它又是一个向量,就实际上还是任意一个向量。因为我这个C1C2是任意取的嘛,X是任意取的。
所以本质上C是什么?从特征分解的角度上来说,A的列空间实际上是U一的列。空间。特征分解的以后,有矩阵的前前而列的。构成的空间。因为这个U一啊,它是正交的,实际上这个是一个正交矩战,对吧?
刚才所说它正交矩战,它前而列一定是线性无关的。前而列一定是线性无关的。因为正交一定是牵线性无关的啊。这个就不用说了,你想你那些向量都是乘90度的,你怎么可能线息相关的,对吧?
那么CA就实际上等于CUE啊。这样我们就把子空间给联系起来了。就是如果你对矩阵A做一下这个这个herit矩阵啊,不是不是不是叫对称矩阵,对称矩阵,等就是实的。如果做它对它做特征分解的话。
那么A的原始的列空间实际上是U一的列空间。林特这边没有印象,因为这下就直接消掉了。这个是对角曲线是全零乘以C2就等于0,所以AX就等于U1乘以。前面这部分。那前面就是这个是向任意的向来啊。
所以最后的结果不就是C等于COU1吗?那实际上你就简化了呀。我们不就是要求它的这个列空间吗?因为有的时候求列空间的时候不太好求的时候,我们把它做一下分解,这样就简化了。说白了根本质然上就是简化了。
因为你这个A,它的质是R,它本质上只有R个线性无关的向量,小R个线性无关的向量。那你你把它这个承在一起去算它这个空间,没有这样简单。因为这个U一它的质本身就是R。就一下子你就得到了CA等于CUE了。
我们就把这个空列空间给联系起来了。同理大家可以证明零空间是指AX等于零的零空间,那么就可以得到这一部分U2实际上就是零空间的正交积压,说白了NA是怎么构成的?实际上是由U2的。
所有的线性组合就构成成了它的正焦机。这就是它的这就是NA怎么来的?实际上是U2的这些所有列的线性组合。所谓的这些子空间。我所说了一定是一堆什么什么向量,线性无关的向量或者线性相关的向量做了线性组合。
但是我们希望它是基基就是说这个这玩意儿这个线性无关这个向量呢,多一个不多少一个不少,刚好多一个,它就线性相关了。少一个,你这空间张不成。那么正好这个子空间呢就是由U2来构成的。
所以这就是这个这个里面大家仔细可以去理解一下。利空间对列空间就是我们的值域空间,叫range。在在在英文里头叫range。这里头我不做区分。我个人认为啊,如果你能把举折理解到这些rangepan。
See。A。都是等价的,无非你就把这个A拆成一些向量嘛,它就构成rangepan C都是一样的。那么这些空间的尾数是什么?都是矩证的A的质啊。这样你就可以打通了啊。那么内集还有几个最后的几个关啊。
这个这个好像我截图的时候截的有点问题啊,我就后面就是一个矩证的范数。矩阵的范数就是因为我们刚才所讲了一些矢量的范数嘛,那矩阵也有范数啊,实际上就是说比如说矩阵的F2范数。
实际上就是它的所有的元素的平方求求和,然后开根号。那么实际上大家想想,它不就是一个列向量的矩阵矢量二份数的一个扩展吗。对吧你就向量扩成矩证,就不不不就把它的元所有元素平方开根号呗。那么AF的。
它本质还可以有这个形式写,就是A转值乘以A求它的G,然后开根号。怎么证大家可以看一下书啊,然后P范数呢,我们这个定义的个P反数,就矩证的P函数实际上是这样的一个定义方法,大家也可以看一下书。
但是它的它最有用的实际上是是个叫做二反数。就是它的矩阵的二反数,实际上是A转值乘以A,它最大的特征值开根号。为啥这头能开根号呢?我说了A,这头你写赫米特转值也可以写转值也行啊。
就是如果复数的就是A转值乘以A,它一定是对称的,对称矩阵它特征值都是实数嘛。而且这这个矩阵它不只是对称的,它还是正半镇定的。所以它兰姆da都大大于等于0,所以就可以开根号了。实际上最本质的是什么?
它就是它就是奇异值,它本质上就是一些奇异值。对啊,它实际上是体值,然后相容性啊,就是这头矩阵有一些相容性,所以AX等P小于等于A的P乘以XX的P。然后A的F2函数刚才所说的,这个定义已经有了啊。
然后假如说Q和Z都是正交矩阵的话,那么你沉不沉都无所谓,反正就是原来的这个F2函数啊。这是这样的一个。那么我今天到这里头,我觉得因为是公开课,我们就时间是有限的。
我们就主要是呢把现性代数和举证的一些基本知识进行了复习一下。就是首先我们觉得大家要去理从更深的角度去理解矩证乘法啊,不是不就是不只是当时你们上课老师跟你讲的,就是一行程一列啊。
这个这个这个理解太太太那个啥了。实际上就是说本质上我所说的有可能至少有4种视角,应该是因为你如果你把AX当成特征向量做向量的旋转的话,它实际上是有第四种视角啊。那么最主要的核心就是列的线性组合。
有列的线性组合,对吧?它就是实际上是然后再往上引它的线性组合就构成了什么?构成了子空间。你要从子空间的观念去理解子空间刚开始你觉得抽象,你就拿三维子空间拿出三维空间拿出来。然后在里面找一个平面。
你自己去理解,你这样就能够把AX等于B这个向量这个这个方程有没有解啊,大致能够理解到。然后我们又讲了一下它的特征值和特征分解啊。那本质上它实际上是核心就是对称矩阵的这个特征分解。我刚才所说了这个特征值。
我们喜欢的是它是实数,其实虚数我们也也不喜欢,我们最喜欢的它是实数。然后呢,它这个特征向量呢,最好还能是线性无关的,甚至是正交的啊。那么这时候特征分解会带来很多好处,它可以和子空间很紧密的就连在一起了。
对吧?我们在里头呃在我们信号处理头里头或者图像处理头有很多什么子空间的算法,实际上都是从这些头来的。所谓的什么叫子空间算法,sspace base什么me实际上本质上都是都是从这些来的啊。
然后呃后面的这个大家看看啊,因为这个这个是一些班。从那么到这里头,我就稍微给大家答一下疑吧。还是前半部分讲的,因为确实东西比较多,呃,你要在短的时间内完完全全理解到是不太可能的。
需要大家下下来以后花大量的时间去慢慢琢磨。所以我本质上说局实矩阵并没有那么简单啊,娱若矩阵,如果能够把它深入理解到,对应于你后面做机器学习算法啊,各种图像处理算法是会非常有帮助的。
因为它实际上是一个基础啊,矩阵是一个很重要的工具。它如果能和那个最优化联合在一起以后,这个这个就相当于我们打魔兽里面的类似于这个叫什么这个火枪加女巫的这种万金油打法啊。
就类似于那就说他可以解决很多很多问题,实际上是这样的一个东西。对大家要不答个疑,看看还有什么问题吗?呃,推荐几本书啊,我个人看过的一本书是那个呃好像网易是不是有个公开课啊,叫做但我没看那个课没看完。
因为太多了,就是那个叫做线性代数的那本书,就是就是那个网易公开课好像那上面那本书那个我大致之前翻过一些,我觉得讲的还是写的挺好的,写的挺好的。然后呃举证本身的书。
我这个有些我是在之前我们以前老师上课的时候,有一些材料,然后把它弄进去的。但是本质上没有书,但是我可以给大家推荐一下,就说举证里面的好的书,我觉得首先你就可以看一下线性代数的那本。
就是就是就是网易公开课的那个教材啊,而网上也可以下了。然后这这个这个你可以看一下,就相当于线性代数的基础。然后呢,你在举证再网上走的。比如说有这个霍恩的这个举证分析计算。但这个这个举证分析啊。
这本书其实比较深的。然后还有呢就是你能够把那个张贤拿的那个那本书,那个实际上红宝书你可以当。这个工具数来看,那最主要的还是你要花很多时间。我觉得很多大家要把那些线性代数以前那些扔掉的东西啊。
再重新剪一剪。因为线性代数是矩证的。线性代理数是矩阵的这个这个基础。而矩啊这个地方我看啊子空间旋转后和谁平行,不是子空间旋转,是我们A这个矩阵对X3这个向量进行旋转。
之前我们的理解一直是觉得A乘以X理解成对X的列的线性组合。但现在呢我们AX理解成对X的旋转。它实际上是对X进行旋转啊,这样去理解,不是它的作用,不是施加在A的上面,是施加在X上面。那么旋转以后。
它还是能够和它平行。对,向量旋转,这是第四种理解方向。就是前几种的理解的那个前三种理解AX理解的理解的思路,我们重点是放在A上面,对吧?因为是A上,后面我们这个特征值的时候是实际上是X,对。
至少原点旋转。你可以认为,因为这些向量它都是通通过原点的这些向量嘛,你都可以这样画呀。对,还有伸缩,它本质上首先是旋转,旋转完了以后,前面不是还有个lammbda嘛,5吗?
就前面那个55倍的5不就是对它进行了伸缩嘛,现在就是就是扩大了5倍嘛。但本质上还核心还是你转了一圈,能够和它平行啊转回来。和它平行,我的意思是平行是有可能是同方向,有可能反方向啊,因为无有可能是-5啊。
看大家对前面的还有什么有没有什么那个或者大家如果能够把我结合这些东西,把你的之前那些啊线性代输出没丢的,如果能够翻出来稍微复习复习,对你理解后面的那些矩阵,因为我觉得这这些只是一个基础啊。
后面的矩阵还很复杂,因为矩阵的这些特奇异值分解啊,什么投影呀,最小二成啊,这些东西都还是很复杂的。如果你能把那线性代数理解清楚了,对理解你后面这些东西是有帮助的啊。因为有些人那个比如说这个施密特正交化。
我当时上课的时候说实在的,我是真没学懂,因为呢老师在那黑板上画画画画画来画去画了一大堆,我也没理解到,为什么就这样就正交了,反正哎把这个数带进去一看还但就是正交的。但是呢后来我才慢慢的在这个过程中呢。
因为我要用到这些正交化的东西,包括矩阵的QR分解啊这些啊,后来才理解。其实你能够把投影能够如果理解的很清楚,投影又是从哪来的?实际上是子空间的夹角是90度这样去来的。啊。
所以所以这个它是一层一层的有关系的啊。啊,我我我现在在澳大利亚工作了啊,我本身还是在做研究工作。所以呃所以我这些东西因为是我本质上要我每天都要用的东西啊,所以理解是有些是我自己的理解,但是不一定对啊。
这个不一定对。这个我可以说呃,因为如果从严格的数学意义上来说,我的那些理解可能不是对的啊。但是我反正这这样至少我这样理解对我对我想的这些问题是比较好好理解的啊,就是从从严格的数学角度上来说。
并并不一定是最好的对。呃,继学习怎么在一起?对,这些很多了。因为矩阵我就说是基基础了,你机器学习里面那些概率贝叶斯这些这些东西啊,还有这些优化,这些不都是矩阵和图优化结合在一起的吗?啊。
CS和机器决起CS是什么什么?这这个是压缩感知吗,或者还是计算机啊。嗯,对,压缩感制压缩感制也是一个很重要的。我我个人认为呃压缩感知里头有一部分实际上是从机器学习里头分出来的啊。
在我我在我我的这个做科研的过程中的时候,是是非常有用的,非相当相当有用的一个东西。压缩感知干嘛的?压缩感知就是实际上是呃恢复一个心入向量,就是啊压缩感知是说实在的,也就是AX等于B啊。就是实际上是。
我刚才忘了这个地方可以给大家稍微提一下,它压缩感这本质实际上就从线性来说和矩证来的,就实际上就是个方程组。大家看一下。这种宽矩阵ASB不是有无穷多的解吗?但是我就算没加条件啊。如果X是稀疏的情况下。
有可能就能找到唯一解。这有压缩感就要干的事情。稀数是指这个X里头向量有很多是零,所以这个这个矩阵就可以降维了,降维以后就变成一个长矩阵了,所以它就有可能有解。本质上来还是解举证方程啊。
ASAB的样一方程。而PCA又要扩展了,那PCA也是在举证的基础上继续扩展的,也非常有用有有用。这个我感觉个PCA是在哪都能有用用的上。它也不叫做颠覆奈回斯色采样定理嘛。
它实际上就是说嗯你要从这个矩阵的角度上来理解,就会更好理解一点了。对,就之前无非就是个方程无穷多个解的时候,怎么办?好,现在我我加一个系数约束,这个方程有可能就有唯一解了。就这么简单。行。
看看大家还有什么问题,要没问题的话,我们呃今天的公开课就到这里。啊,后面大家有什么问题可以可以给我邮箱发邮件,也可以跟这个群群主联系啊。然后后面是不是还要再开课。
我们后面到时候有有课的时候再通知给大家啊。然后今天的课件我会晚一点上传上去。因为我这个课件本身是之前用做的,结果发现今天那个PDF放不了,我只好把每一页又截到截图到那个PPT里头这样放的。
我今天上传的是PDF版本的啊。那没有驳合,不好意思。你没复习,这不是这个是需要一些嗯,你要结下来结合我的PPT,然后把你之前的一些基础再重新翻开来去好好看一看啊。
因为如果你把现性代数整个都还给老师了的话,那么你看这个是是比较难的啊,其实是是这样子的,因为你都忘了嘛。对,如果以后后面会开课的话,会我会把提前把PPT上传上去的,让让大家自己去看一下啊。
因为机器学习本质上也是信号处理啊这些的一种嘛。当然他还我对机器学习理解还是比较浅啊,我个人也在学习。嗯,但是我觉得搞这些东西,什么贝叶斯,它本质上还是贝叶斯那一套,嗯,数学是非常重要的。好的。
那如果这样的话,我们今天就到这里啊,感谢各位啊。然后我晚一点会把PPT上传上去的啊。好,谢谢各位。
人工智能—机器学习中的数学(七月在线出品) - P8:偏度和峰度 - 七月在线-julyedu - BV1Vo4y1o7t1
🎼。
嗯,好的哈。😊,这么概念哈,就是说这个随机变量X哈,如果我们把X的K次幂把它拿出来,然后对它求期望。这个东西我们定义把它叫做K阶的原点距。如果说这个X减去了它的期望,再做K阶的这个就不是原点距了。
那就是一个中心距。如果这个等于零,这不原点嘛,然后减去某一个值减去个中心嘛,减去它期望嘛,把了叫是中心距。所以有一个K阶原点距和K阶的中心距。这么一个概念哈,我其实它是有来源于这个物理学。然后呢。
这个就是那个真的那个例句那个句哈,然后咱不再去过分的去探讨它的那个原因。我们这里面呢会利用这个句跟大家说一点统计量的事情,做一点总结。我们会发现。
期望其实就是K取一的时候的一阶原点距。方差就是K取二的时候的二阶中心距。
对吧所以我们刚才给定的其实是一阶跟二阶的一些距。它的一些参数对吧?统计参数而已。我们刚才如果是用标准差去除均值,其实也是一个统计量。有时候把它叫做变异系数或者叫变差系数或者一个词哈。
有人把它叫简称叫CV,大家了解就好哈。呃,有些学科中是用的,有些用的不多哈。我们其实可能做更高阶的东西。比如说做三阶的统计量,它呢会产生一个概念叫偏度。做四阶的产生个概念叫做风度。
那这样子就会产生这样子的一个概念哈,它是用来衡量它是否有偏无篇的ok哈。偏度从名上看就知道哈,他其实是想判断一下这个随机变量它的不对称性,对吧?也就是什么叫不对称性啊?是相对于平均值而言,它的不对称性。
所以偏度有可能为正,有可能为负。或者无定义哈,比方说如果偏度为负这个意思,它指的是这个概率密度,这个值啊,比方说这这是负偏的对吧?那么说均值大概在这儿,对吧?假定在这儿哈。
它呃负偏就相当于它的这个尾巴偏左了,对吧?这个长尾这块在左边这个最高的这个在右边了,就它那个像在在左边它是长尾分布多的,如果是这种情况的话,均值大概在这儿,对吧?那这样的话。
它的这个在右边这部分长尾是多的,所以它就是叫呃右偏或者叫正偏是这么一个定义哈。然后呢,另外如果它的偏度为零,那就意味着这个正好是正中间的这样情况哈,或者是这样情况,或者是这样的这个情况啊。
有这样的这个情况,对吧?但是呢呃大体上是均匀分布在均值两侧的,并不意味着一定是对称的,只能说大体上是对称的,从中间看的话是对称的对吧?😊,是这么一个概念哈。😊,偏度跟无偏估计是两码事哈,这个是没有没有。
我们可以认为是没有关系的哈。呃,偏度的公式其实可以怎么想呢?大家可以琢磨一下哈。你看哈我们要想定义偏度的话,比方说均期望在这儿,假定说哈期望在这儿,那么说对于这个同样的一个我们选一个点哈。
比方说这个距离上一个距离这个选一个距离对吧?那这样的话,这个距离上这个值概率值是这么大,这个点上它的这个概率值是这么大,对吧?那这样子乘完之后,其实值是不一样的,因为它都一样,对吧?那这样子的话。
我们如果是选择同样概率的某两个值的时候,一个在这儿一个在这儿,那么说一个其实距离它很近,一个距离它其实很远,我们让远的更远,把近的更近,因此把它那个维度把它给高上去,比如说做成三次的。
这样子就能够来度量偏度。就这个东西哈,然后呢呃为了保证他是呃。量刚是唯一的,或者叫叫单位是没有的对吧?我们把那个单位去除掉它。那么说上边除的是个三次幂,底下也除3次幂,对吧?
西格玛本身它其实本质上我们可以看的是西格玛平方的2分之3次方。上面这个其实是一个这个三阶统计量,底下是一个平方的1。5次方,对吧?这个方差的1。5次方,这样子就能够来记度量它的偏度了。
另外呢我们通过这个东西可以简单的来算一下,它可以写成它它呢应该写成它其实我们在实践里面可以用它这个公式来去算偏度。为什么这么算呢?因为这样子的话,这个X3次方可以一下子算出来X的平方可以。
F平方一下子算出来之后呢,我们就能一下子算出来一个斐玛平方。这样的话呢代码显得好看一点,没别的意思哈。你如果分开算一其是一样的,用它其实更好看一点而已哈,就是偏度。
我们再来想一下哈,就是说如果我们把那个接数再高上去的话,其实能够度量它是尖儿尖的情况,这样子呢就可以度量它的风度。这个风意思就是这个风哈,它指的是在均值处的这个。他的这个概率值的高低的一种特征。
我们往往在实践层面哈是用四阶的这个中心距,它既然是四阶的。那么说我们底下除以方差的平方来度量它。这是这样说哈,实际上你可以用六阶的,你可以用八阶的,总之就是一个偶数级的就够了哈。
它一定是度量了它的这个呃陡峭程度。但是呢我们实践我们那个教科书上,或者是我们在实践的时候,我们就说四阶好了哈,四阶的一个中心句,来去度量这个事情哈。然后得到的这个东西我们记做一个值就好了哈。
另外呢就是说正态分布这么特殊的一种分布哈,它的风度是3,所以我们强制减一个三,让正态分布它的风度为零,就这意思。如果是正的,我们有一个尖峰的负的叫低峰的哈。但是我们简单的做一个小实验。
肯定要说一下到底怎么回事哈。
呃,这是一个很简单一个例子吧,就是说我这里面的这个随机的去给定了若干个data。然后呢,这个data怎么做呢?我算一下他的这个均值,它的平方的。期望以它的那个3次方的期望好,很好算嘛,对吧?
加起来或者平方加起来或者3次方加起来,各自除以N,对吧?s格ma其实是等于缪那个7万的平方减去平方的期望,对吧?开方之后就是那个它的标准差,我们就会把这个缪西igma和缪三返回去,返回缪3之后怎么办?
是要干啥呢?我。这个还是调用它哈呃,画太高了哈,就是这个是调用它的哈。然后返回这三个值,然后呢,我这里面又做了一个Mu4Mu4之后呢,除以N,然后带入这个风度跟偏度的公式。我来算一下这个值是什么。
这只是一个做法哈,我们现在要做的是到底它。
不同的数据会有什么样的现象?对吧。呃,这个可能是大家更为关心的问题,对不对?就是说我们造一些数据出来,看看它到底结论是什么哈。你比如说我们造一个这个。均匀分布对吧?它取1万个点,我们造一个data。
造一个均匀分布。然后呢,我们也造一个呃这个。呃呃抱歉抱歉抱歉抱歉,那个我们那第一个造的是一个那个高斯分布哈。然后第二个我们造一个分布之后乘以2,它的方差就变大了嘛。然后呢。
第三个我们让这个呃原始这个标准标准高斯分布里面,这个值哈,值取X大于0。5的-0。5的那一部分把它放到data三里面去取一半去多半多一半的部分哈,然后我们故意的然后呢,我们第四个取一个均匀分布。
从0到4的一个均匀分布。然后呢,我们分别算一下data1234各自的起万方差各种东西,然后画成图来,对吧?就这意思哈,我们来分别看一下它到底发生什么哈。这个图其实是一样的哈。这个图其实就是这个图哈。
大家会发现哈,如果说对于这种情况,就是红色的这个这个红色的这个红色的都是标准高斯分布,是跟大家做一个参参照的,参考的它是一个这这。😊。
这个红色这个红色这个红色其实是一样的哈,只是它比例尺不一样。数据不一样,都是这个值行都是一样的哈。我们我们都去。把它看的一样哈。
然后呢呃这里边如果我们对刚才那个式子里面第一个这个data本身的时候乘了一个二,得到一个data2,对吧?把这个data二画上去的话是。
呃,这个绿色的这个这这个这个这个数据,绿色数据啊注意哈,我乘以2之后画这个直方图是绿色数据。因为为什么呀?比方这个值本身在这儿乘以2它上去了嘛,所以它变胖了。对吧直观上的眼感觉就他变胖了,对吧?
所以说它这个里边只是方差本来是一变成了方差是2,就是这个整我大家看不清,这个是方差本来方差是一,方差是一。然后后来方差是2了。这个2。02,只是因为这个我们取的数据它会有一点点的这个呃。
这个这个精度问题对吧?因为它不是真正取得最最正的嘛,它一定会有一个误差,对吧?这个咱不管了,大约就是2,它的均值大约都是零的对吧?然后呢,它的偏度都是0,它的风度都是3。对吧。没错吧,这是这个事情哈。
然后这是第一个。嗯,然后呢。嗯。哦,不那个这个是哦,对对对对对,那个标准差是2哈标准差是2。我出来我出我输出是标准差哈。然后呢,我们这里边如果是对于这种情况,就是把da塔三这个值拿出来。
我们只去选择了0-0。5以右的部分的时候。那这样的话,其实本来这个红色部分它的这个比较疏松。但是我们只选一部分的时候,其实相当于它更加稍微的比红色的更加紧密一点了,对不对?那这样的话。
本来它的方差是一的对吧?那么说只选正向这一部分的时候,它的方差就标准差就是0。7左右了,0。6962,对吧?所以它因为比较比较密了嘛,对吧?这是一个情况,然后呢。
它的这个呃本来大家看红色的这个从这儿到上红色是这样一个陡峭程度,如果是我们只选0。负联量5以右的部分的时候,它的陡峭程度就变大了,它的这个风度就变大了。对吧然后呢它变大以后呢,它的偏度呃也变得更大了。
因为本来它的偏度是正常的3。现在呢如果是我减三之后啊,其实这个值是0。3左右,它是一个正偏的对吧?因为它的长尾在右侧嘛,这是跟我们刚才解释是一样的。对吧然后我们看这种情况。
如果是我们给定一个均匀分布和标准的高斯分布做我们的这个数据分析的话,那么说它的这个标准的这个均匀分布,它是有一个方差的对吧?这个本来我是用0到4起的嘛,大家简单算这个方差就好了哈。
是12分之1倍的四的平方。对吧反正是这个数哈,是是实际算上来是这个数,对吧?然后呢。😊,呃,对于标准的这种均匀分布而而言哈,对他而言,我们把它从期望处截开,左边跟右边几乎是对称的。对吧那个他。
他的这个从前向后,它的这个变化情况几乎是没有陡峭的对吧?所以说他的这个。呃,抱歉啊,就是先说第一个,就是它几乎是是相等的。所以说对于他的这个。呃,偏度而言,它是等于等于0。因为我画个竖线。
从左到右左边右边几乎是一样的对吧?而这个我如果是画一个。
呃,看它的这个风度的话,这样子的一个风度,其实是正常的一种风度,对吧?我们说它是正常的数是三嘛,那你这样子的一个风度可比它要缓多了。所以这种风度要比它低很多,这个是实际算的我这个数据上是1。8。
如果咱算标准风度的话,我们要减去3,所以就是负的1。2,相当于它是负风度的,它达不到标准正态分布的那个风度。对吧。😡,这一页是咱刚才讲的那个东西的重点哈,如何对数据进行分析?对吧。
另外呢就是咱解释一下哈。风度绝对不是表征一个数据陡峭程度的唯一的物理量。比如说方差也能做这样的度量,因为方差是二阶的吧,风度是四阶的吧,都是偶数阶的吧,是不是偶数阶的东西大体上都能反映它变化快慢。
反映它的这个峰值的变化,奇数阶的大体都能反应它的偏度,它是左偏还右偏,还是往中间。对吧我们可以这么来去进一步的推广这么一个统计量哈。所以我们脑脑海中不要只限制于期望跟方差这两个啊。
虽然这个方偏度跟风度大家。就是教科书上谈的少。但是起码应该了解哈,对吧?呃,多说一句哈。你比方说红色的跟这个绿色的,它们的很显然哈,这个方差不一样,底下这个绿色的方差要大一些嘛,对吧?
但是它们的风度是一样的。对吧他的风度都是三哈,风度都是三,都是一样的哈。所以风度不是你从风度上不能够直接知道这个数据是陡还是缓。所以它是有局限性的哈,所以我们要把这个数据都拿出来一块来分析才有道理哈。
好了,这是关于这个事情哈呃有问题吗?😊,我想这样解释,应该把这个事情我我我个人觉得是解释清楚了哈。风度本来体现的就是它的陡峭程度。但是我解释过了,就是。它只是陡峭程度的一个反应而已。
比如说这个数据红色的跟这个绿色的,它的风度都是3。但绝对不是这个呃。辐收风度一样,所以它陡峭程度是一样哈,这是不对的哈,对吧?😊。
好了哈,这是关于这个事情哈,大家这个代码很简单,大家可以自己把它编出来,自己试一下就好了哈,对吧?好简单的一个事情哈。😊。
呃,另外就是实际上呢我以前做过一些就是。硕博期间的一些软件哈,然后我里边其实也做过一些这种统计,然后为了这个东西做事情哈,这个无所谓了。就是跟大家告诉大家,实践层面也是有些时候需要。做这个事情的哈。
这是这个内容哈。嗯,另外呢我们现在跟大家说两个问题。第一个就是如果给你两个随机变量X跟Y,你能够度量这两个随机变量的距离吗?对吧大家可以想这个问题怎么做。第二个就是我如果给定你两个随机变一个随机变的X。
它的期望是缪方差是sigma方。然后我们如果给你任何一个整数一il,我算一下这么一个概率的最小值。这么一个事情哈。好,刚才那个吉米给我们一个非常好的一个结论哈。
就是说我们如果想度量两个随机变量X跟Y他们的距离,皮亚逊相关系数肯定是其中一个非常重要的概念。实践当中真的有些地方是用像性性关系术的哈。呃,真的是用的哈。大家。😊,还能够想想其他的一些定义吗?是的。
肯定是有别的东西,对不对?比如说刚才这个朱延庆说了这个互信息,互信息呢有些时候呢度量比方说X是我们的样本,Y是我们的标记的话就有用。刚才小静谈到了呃台台东以东谈到了余弦相似度。
余弦相似度和PR逊相关系数,他们之间。有非常大的联系,大家可以先琢磨琢磨。非常大的联想啊是几乎就是一个东西。其实。然后这个小静谈到了K尔散度,K尔散度跟胡信熙他们之间又是有相关有非常大的联系的。
然后jacker的相似度其实是用来度量集合的对吧?OK哈,我们大家还谈到了这个欧式距离马氏距离和JP小的距离,其实我们都可以把它统一,然后在。序例那部分哈再跟大家来分享。各种各样的度量相似度的情况啊。
大家说的非常漂亮啊。好,我们现在呢把重点发的第二个问题上。就是我算一下这个X减谬的绝对值小一匹种,它的这个概率的最小值到底是什么?他其实就是算一下他的期望附近的概率啊,对吧?
我们来总磨琢磨哈,根据定义X减谬大于等于一系统,那不就是在这个定义域上去对这个东西做积分嘛,对吧?那既然这是做这个东西做积分,那么说X减缪是比一部系统大的。
因此X减缪的平方除以一普系统是大于一的乘以一个值总可以吧,那我把这个一分平方拿出来总可以吧,对吧?然后呢,这里边是对X减缪的大于等一系统做积分,我如果对整个实物域做积分也可以吧。
所以这样的话就是小于等于喽。而这个就是方差的定义是吧?所以说这样子它是小于等于这个东西的。对不对?所以它它要是小于等于的话,就是大于等于它的这个就是它给定一个正数X位于期望附近的最小值。
这其实说明了什么呢?说明了。如果你的这个方差越小的话,这个值是越大的,对不对?那就意味着你这个X这个随机变量距离你的。期望是更近的,离期望不会那么的远。如果Cma比较大的时候,你距离这个期望会略大一点。
是吧其实这个东西就是我们今天要说的切比写负不等式。对吧这个东西其实呃它给出的就是方差的实际的物理意义。就是X它的方差越小的话,这么一个事件它的概率越大。这个事件什么意思?这个事件指的是X取值。
集中在期望附近的概率。对不对啊?就是说你方差越小,这个X越集中在期望附近。我们从一个严格的一个不等式上做了一个证明。
人工智能—机器学习中的数学(七月在线出品) - P9:期望和方差 - 七月在线-julyedu - BV1Vo4y1o7t1
🎼。然后呢,我们把那个期望跟大家做个复习哈,因为大家应该是对他很熟悉了哈。😊,就如果我们已经知道一个随机变量,它呢这个我假定是这个它取,比方说假定说他取一的概率是几?二的概率是几?三的概率是几。
然后五的。概率又是几,对吧?😡,然后呢,我们把这个东西用这个一和概率,二和概率相乘三概率相乘四和概率相乘,然后把它加起来,这就是所谓的。期望对吧?然后呢,如果是连续情况的话。
那么说把这个积分符号变成呃加和符号变成积分符号。然后这个概率分布率就变成了概率密度函数,其他都是一样的,对吧?所以说我们强调的就是加和跟积分本质上是一个东西,对吧?
所以我们可以把这个期望就看作是用概率加权的均值。对吧我们它其实我如果把这个PI去了,那就是把它加起来嘛,除以N嘛,对吧?如果加上这个PI就是以PI这么一个概率加全的它的。平均值。
所以说我们可以这么来去看这个期望哈,对吧?好了,这是关于期望的这么一个定义哈。我们根据这个期望定义,可以非常方便的得到一些无条件成立的公式。就是如果这是K各式个常试的话,可以拿出来。
因为这个定义这个证明实在太简单了,对吧?直接用这个定义或者定义都能证出来。然后呢,如果X加Y的期望,就等于各自的期望的加和,注意这个是无条件成立的。X跟Y如果不独立,也是有这个等式的。
因为我们把这个X加Y带到这个式子里面去,马上能证明出来的,对吧?呃,另外呢就是如果他们X跟Y是相互独立的。也就是我们如果是有他们独立有这么一个条件发生的时候。
那么说我们利用这个式子就能证出来X跟Y的乘积的期望等于各自期望的乘积。这是底下这个式子是有条件成立的。呃,我们先说一个问题,就是这个东西,我们等会要利用它做两道习题哈。
然后这个东西呢我们强调一遍的是他们独立能够推出它们两个是相等,但是他们两个相等,不能推出他们是独立,二者不是等价的。事实上,他们两个相等,只能够说明他们两个是不相关。我们等会儿再说什么叫不相关啊。好了。
我们现在呢先简单的说两个题目哈,这两个题目也是实际的这个面试题了。其实然后只是跟大家做一个小的分享哈。就是我们假定这么思考哈。😊,我们给100个数,然后呢是123456789到99,再加上2015。
或许我以后把这个题名个变成2016了啊。然后呢呃这一共100个数,我从这100个数里面呢去任意的去选择若干个数出来。若干个的意思是,我可能这个这一次选了100个时候都选了,也有可能一个都没选,对吧?
有可能是0个,有可能100个。取出这个若干个数之后呢,让他求一个异或。OK我求的这个异或的这个值,它本身就是一个随机变量呀。因为我做了一次抽样,又为若干个数就能够算出一个异或值来。
再做一次抽样又能得到异或值出来。OK我让大家算一下这个异或的期望是什么。这是这个题目哈。首先我们简单说一下这个题目,大家看有问题吗?就题目的这个看咱做什么。大家看一下有没有问题。
就是说咱样光说题目的本身的理解啊。易货是吗?易货就是无符OKO呃,有两位朋友问易货是什么了哈?就易货,我们可以简单的把它看作是无符号的一个加法。我们做一个易或的定义。如果这个。一个是零一个是一。
另外一个一个是0一个是一,对吧?零和零做异或,那就是00和一做异或是一一和零做异或是一一和一做异或是0。只要他们俩是一样的对吧?那么说他们一或值就是0,一0和0一样,一和一一样,对吧?
然后如果不一样的话,它就是一,这个是不一样,这是不一样,对吧?这是一个解释哈。然后另外一个解释,就是我们可以把它看作是一个。不考虑溢出的加法,0加0等于00加1等于11加0等于1。
然后一加一应该等于10,这个1溢出了没了,因此就剩下一个0。我们也可以这么来去看待抑惑哈,没有不考虑进位的一个加法。对吧这样解释也是可以的哈。😊,呃,第二种解释可能解释的略少。
交构书上一般来讲是抢前一个就是相同的就给零,不同的就给一,对吧?这也是一或者定义了。呃,好了哈,然后多谢多谢。然后嗯。😊,是的,因此这个塞拉万说了个非常好的事情,就是说所以说如果是奇数个一。
比方说两个一它一定是零了,对吧?但是如果三个一,它其实又变成一了,所以奇数个一一定得到一,偶数个一一定得到0。对吧这是异货的特点。所以我这个题目里面,他虽然让咱算异货。
但是我们本质上只如果想看它一的值的话,就考察基数个一,它的情况是什么就够了。对吧。😡,呃,抑或是呃位与位之间做抑或哈,我们不考虑这个进位的。比方说1011和0010这么一个东西做一或哈。
一和一是1一和1呃,一和0是1一和一是0,0和0是0,一和一是1。你不考虑金额把它加起来就是了哈,对吧?这就是做疑货哈,只是按位做哈。😊,好了呃,数的之间不考虑哈,就是数位之间不考虑,我们只是数那个。
各自去算就是了。所以根据这样一个特点哈,我们就既然这个题目让算抑货,我们就一位一位的来算。对吧2015给于把它把它写成12进制数。总之,2015可以写成一个二进制数。
这个二进制数一定是异获得最大的那个值。因为这个这个呢因为它既然2015嘛,写成一个二进制数,首位一定为一。哎,我问一句哈,我写出一个任何给一个,大家给一个数字,你写成二进制数,首位一定为一,为什么?
为什么?😡,守位一定是一。是不是?😊,因为首位是零的话,你就不写了嘛,对吧?所以说首位一定是一,所以2015最大,所以说首位一定是一,对不对?所以说它最大它的位数是最长的,对不对?
我们就把2015多少位写出来,然后它多少位,我们就考虑多少位就够了,是不是?😊,呃,因为有些概念特别简单,但是人不说哎,为什么呀?是不是一个三点水,一个来,大家认识吗?念来对吧?这个字念来一个三手。
一个去的,要认识吗?是不是念去啊,好像是不是。我们现在考察一下怎么样去做这个期望哈,呃,就按位去做哈。就是说我们针对一个呃二进制数,对吧?取奇数个一,然后异或之后得一取偶数个一,然后异或之后得零。
跟零的个数是没关的对吧?我们只看一的个数。😊,是吧。😊,那2015最大这个数其实换着二级是长这样子的,它一共有11位。OK我们就考这11位。这11位里面我们假定想算第I位。对吧DI为我们记作大XI好吧。
我们我们算这个算这个值哈。因为为什么呀?我们如果能够算出XI它的期望来。你不让我算这11位吗?这位的期望有了,下位的期望有了,我把它都加起来就可以了嘛。因为期望是无条件成立的,对不对?
就是刚才我们给的这个式子,期望加和成立是无条件成立的这是我们的基础哈。好了,我们现在考察这个事情哈。另外我们会发现哈2015这些书里边哈它。这些位里边除了这一位以外,其他数至少有一个一。
而这一位呢是几呢?是012345。如果这个位为一,这个位为0,这个数其实是32。对吧32是位于我这个1到99里边某一个数的。所以说啊我给出的1到99,这是2015。
可以让这11位的任何一位至少有一个位是一。对吧。至少有一个位是一好了,那意思什么呢?就是说现在我假定我从这100个数里面的第I位里边有N个一有M个0,那意味着这个N是大于等于一的对吧?
这个N哈N是不等于零的M等不等于零,咱不管了,M就为它是是零的个数嘛,其实是在里边添乱的哈,我们来琢磨下这个事情哈,好了,假定在某一次采样,我们得到的这个一的个数是有K个,你不是一共有大N个一嘛?
那么说我可能某一次采样得到了K个一对吧?OK我就算一下它的期望是几呢?怎么算这个期望哈,我们就直接利用古典代形算一下这个它呃能够取得奇数个一是哪些种取法,算一下一共有多少种取法,对吧?
它一除就是它能够为。基数的概率为基数的概率,也就是它等于一的概率是吧?也就是它的期望了。所以这是我们这么做是没问题的对吧?不过在概型里面我们这里边一共有呃。M个0有N个一。
你现在想让我去选K个一K要取基数。本来哈CNK这是我可以取的这么多种情况。但是呢我们要求这个K是个奇数,是个out的基数情况,对吧?这是取一保证了K个。M那个零呢,这里一共有M个。
其实我不用管它到底几个,对吧?所以这M个零我要么取,要么不取,一共有二的M次方种取法。对吧我因为我只考察一的个数嘛,0我要么取要么要么都取也行,都不取也也行,所以直接乘上就是了。
而这个里边我一共有N加M个数,对吧?这N加M个数取出干个数的话,一共有多少种取法呢?一共有二的M次方加N次方,这么多种取法,对吧?因为一共有N加M个数嘛,要么取第一第一个数,要么取要么不取两种。
第二个要么取要么不取两取两种,一共有N加M个乘起来了,对吧?所以一共有这么种取法,那这个跟这个显然这里边有一个二的M次方就被。消掉了,还剩一个二的N次幂,就这个对吧?
我们直接利用高中所学的知识CNKK取奇数的那个值的加和和CNKK取偶数的值的加和,它的相等都等于二的N次幂的一半,对吧?这个如果想证明的话,你把一减去X的N次幂做二项展开,展开之后,对吧?
然后把这个X取一,这边就等于0,那边就是奇数项跟偶数项的各自的把它一一整理就出来了哈,很好证明一个东西哈。那这样的话,其实这个事就等于2分之1。对吧。😡,好了,我稍等一下哈,这块有问题吗?
这块是整个问题的最难点哈。最核心的一个难点,大家看有问题吗?K和N是没有关系的,就是这个N哈,我刚才只是说了,有N个一,反正我们知道有有N个这个N既然是大于等于一的某一个数。
所以说这个呃取到K是取到一的个数是奇数的。可能性是存在的。如果N是等于0个哈,如果你这一堆这个呃红豆黑豆,红豆一共有。这个M个红豆呢那个那个那个黑豆呢一共有0个,你就不可能取得奇数个黑豆。
但是我这里边这个N呢这个数是大于等于一的,所以说我一定是有可能取到奇数的。对吧K这里面我们只考虑那个取到那个奇数个一哈,这个这个是我们只让它取奇数,因为只有取奇数的时候。
它才能够最终亦获得到XI这一位等于一。呃,二的M次方是因为咱这个里边只考察让这个K这个值取奇数,而这个0。愿意取几个就取几个,我们取若干个,最少可以取零个,最多可以取M个都是可以的。而。一共有M个数。
我里面随机的去取,要么都取,要么都不取。那是2的M次方的取法嘛?对吧因为第一个数取,第二取不取,第二个数取不取,第三个数取不取,所以一共有二的M次方,对吧?这个。解释跟底下这个其实一样的。
底下这个一共有M加N个数,我我要么取,要么不取,这一共有M个数,要么取要么不取。如此而已哈。在路上说前面这一段需要解释什么?我我简单说一下哈,就是说咱再说一下哈,因为咱这个异货的特点嘛。
因为一如果和一做抑货的话,其实是等于零的。对吧那如果一和一再和一个一做异或呢,那显然一和一做一或是零了,0再和一抑或,那就是一,这是承认的吧。所以说你再加个一也是一样哈,就是如果再加个一,我不写了哈。
然后偶数个一做异或一定是零,奇数过一做异或,一定是一,就这个哈。哎。OK哈,这个刚才有朋友说,我们随便举个例子哈。比如说咱这个里边哈不是1到99以及2015嘛,对吧?
那么说假定说我们这里边随机选了1个31,选了1个48,选了1个97,可以吧?我随便选了这三个数。是吧那既然随便选了这三个数,我们现在来考察它的第零位,就是就是个位数上最低第零位。
第零位里边一共有几个一呢?一共有这个是个一,这个是个一,一共有两个一,一共有几个零呢?一共有一个0。如果有给你两个一一个0,请问在这种情况之下,你取若干个数,使得一的个数为奇数的概率有多大。
这个就是它的计算公式。就这意思啊,因为我如果是31,那你算一下31和97,他们的个位数都是一,所以有两个1,然后48它的个位数是0,所以有一个0,对吧?如果有两个11个零的情况之下。
你有多大的可能性取得一的个数是奇数呢?对吧?那其实只有一种大的情况,就是我取了一个一,但是零,我要么可以取零个,要么取一个。就这意思哈。对吧。零我不管对吧?0咱不去考察这个零的情况哈,只考察一的情况。
因为这里边零跟谁抑或都是。原原体本身。对吧。OK大家又忘了题目了,对吧?大家题目的意思是指的1到99里面这些数缀上2015这100个数,我任意的选出若干数来,这不就是我这里面某一次选了三个数出来嘛?
31、48、97嘛,然后让这三个数让他求异货,异或之后呢,看看这个值,它的期望是什么。😡,对吧就这个题目哈,所以说呃大家咱这样,咱就不说这个题目了哈,就实这个题目看来。😊,嗯。这个是这样哈。
就是你可以写成EI哈,写成EI其实完全没问题哈。我这么写就是XI等于一,它的概率的期望。你这么写没问题哈,对吧?采样为奇数个一,那么这奇数个一相互异或后,结果为一,用这个一和奇数个0异或等于1哦哦。
许消哲说的我又乱了啊,咱等会还是课间再解解释这个事情啊。嗯。这样哈就是再这样哈,然后如果大家已经假定说咱把这个式子搞清楚了哈,假定说搞清楚了。如果不清楚,咱那个再去再去解释哈,假定说搞清楚这个事情了。
然后我们想让大家算这11位二进制数,它的值是什么?其实你会发现哈XI取的一的概率是2分之1,它是个定值,竟然对吧?那这样的话,其实其某于每一位唯一的概率都是0。5。而这个X怎么算呀?
这个X我们其实就是XI这个值取它的概率,取得它的概率的值概率拿下来。然后XI本身的值拿下来,然后从0到100把它加起来,这不是。定义嘛,对吧?这这这这这这对吧?这没问题吧。
然后这个XI这个东西它有两种取法,要么取一,要么取零,对吧?取一的时候,它是二的II二的X次方取零,那那其实就是零这个数呗,对吧?那这样的话,这个就被炸掉了,零乘以这个数没有了嘛。
所以光上前面这个数了得到它对吧?这个数呢我们会发现是等于呃,这个东西是吧?就是加和,既然是这个东西加和取期望,我们利用刚才那个式子就会把这个期望放到里边去,加和拿到外面去换成这样一个东西,对吧?
因为期望呃它的X加Y的期望等于X期望加Y的期望,就能个用那个式子哈,那这个东西是什么呢?这个东西而言,这个二的I次方其实就对于期望来讲是个常数把它扔出去。而这个呢我们刚刚算出来了,其实是等于2分之1。
对吧OK这样子这个数大家这么一算,其实就能够把它算出来到底等于几。就这么个事情哈,对吧?这个算就就就正常算了嘛,对吧?所以说我们只要是把前边的这一部分,把它等于2分之1搞定了。
后边这个哈我写的还是比较慢的,然后每一每一个地方去算,对吧?就能搞定了哈。OK没问题是吧?所以呃大家回去之后只是在考察前面这半这前半段就是了哈。好了,然后呢我怕大家不信哈,我就自己编了个小程序。
然后试验了10,我们经常去做嘛,给定这些数,然后你采样抢个若干次,最求了个值来。这个值我算了这么多次采样,抽样之后取得的均值是这么个数。这是我们实验得到的结论,1021。18。我们理论得到值是1023。
5,应该还是相互之间比较吻合的对吧?呃,还是能够相信这个结论的对吧?因为这个题目就是我们拿到手的任何题目都是没有答案的,我们都要自己把它做出来哈。所以为了保证自己算的是对的,自己真的做了一遍哈。
实验一个结果应该是对的哈。😊,另外呢我们可以给出另外一个思考,就是把刚才的2015换成1024。仅仅换着一个数,就是不是12015,而是101024了。那么这个时候题目下都不变,它的期望是多少呢?
大家可以算一下,其实期望就不再是这个刚才那个1023。5了,而是这么个值了。为什么大家想一想哈。原因其实是因为1024里边,这是1,这后面都是0。
所以说就不满足咱刚才给定那个这个N一定是大于等于一的那个前提了。就差这一点哈,其他的是一样的,大家可以尝试一下啊。好了,这是这个问题啊,我们其实已经耽误了好长时间了哈,那我们这个就继续后面内容了哈。😊。
呃,大家问题哈,就说。😊,高个的一取不到某些位置,对,没问题哈。就丁敏冯砂说的都是都很很对哈。就是说因为他有些位什没取不到一的。Jmy说只和最大的位数有关吗?和最大的是机偶有关吗?刚才解释过了,对吧?
它和是否都能为一有关系。那第二个例子其实也并不简单哈,那这样我们就不讲了哈,就是第二个是要算一个集合的哈希值。其实这个题目也不也不简单哈,然后大家就当个思考题吧,如何。😊,然后这个题目怎么算?
然后最后其实它的结论还有近似亿吧,最后其实就是一个二项分布,然后得到一个值2亿哈。大家会自己看一下哈,仍然是用的这个期望加和这么一个公式哈。呃,然后呢我们刚才给定了这个期望哈。
其实后面我们进一步可以计算它的方差X减去它的期望,然后平方之后求期望,这有它的方差。我们根据这个正位公式哈能够很快的得到这么一个结论,它和它是完全相等的。底下的事儿哈。
这个呢我们可以把它读作这个一个随机变量的平方的期望,减去它期望的平方,就是这个随机变量它的方差。对吧很显然,如果一个随边呢它是完全定值,那么说它的方差是0,如果加上一个值没有了。但是如果是K倍的话。
方差就变成平方倍了。对吧这就是方差他的这个定义哈。对吧我们简单的可以看到,方差其实表征的是一个数据,它是不是聚集于这个。期望的附近,因为X减去期望它的平方,它叫期望嘛。我们看起来就像这样子。
就是如果所有的值都都相等,他们都位于期望附近。对吧它的7它的方差就是零的,但是如果有波动,那我们说它的方差就不会0,是某一个数,波动越大,方差越大。对吧我们可以感性的这么来认识哈。😊,另外。
如果说XY是独立的,大家用那个定义就能做出来X加Y的方差等于各自的方差的加和。注意哈,这是独立的话能够推出后者,如此而已哈。
呃,另外呢就是方差开平方,那其实标准差哈,咱就不再说这个概。
人工智能—机器学习公开课(七月在线出品) - P1:机器学习从业者在公司都做些啥 - 七月在线-julyedu - BV1W5411n7fg
我不太清楚在座的这些同学有多少是实际在互联网公司会从事这块工作的同学。如果。做的是数据相关的一些同学的话,你应该如果有和这个ine learning这些team里面同学聊过的话。
你应该知道大部分互联网公司ine learning这些些工作并不如大家想象的说去研究各种各样高大上的model当然会有会有那个你会看到像百度的IDL或者是像滴滴的研这个研究院等等。
这他们大公司的研究院里面会有一些岗位是相对而言偏re一些的但是大部分的实际落地的应用,实际上并不是对这些比如说深度学习啊,好多层的神经网络这么复杂的怎么去做研究而是说大部分情况下,你再和数据打交道。
就是我们今天这些课提到的这些内容是大部分时间可能会花我我大概比如说我们简单估算一下,可能有70%的时间是在处理数据,后面的30%的时间会是你去做建模这个模型的状态评估。然后O modelel。
模型融合等等这么一些工作。所以大部分复杂模型的算法,精进都是一些数学科数据科学家在做,对吧?或者一些顶级的这个CMUdeer那些实验室的同学可能在在在跟进这么一些精进的些算法。
那大部分人只是把这么一些package拿过来用。所以但是大家都是这些package,没有这个。大家都是这么一些拍age,那谁能用的更好?这个东西很大程度上就取决于这个地方我们提到的。这个。
非常geneary,对吧?好,那个对,然后大部分时候你会做到各种各样的你会处理各种各样的数据相关的一些任务,对吧?有因为有很多同学会问我说,老师。
那我做模型 learning需不需要有这个比如说ha do或者park这样的一些。一些一些基础的知识或者是背景呢?其实怎么说呢?就是你如果你你真的进到这样的组当中,你一定会具备这样一个技能。呃。
而这些东西本身不是太难的,它只是因为数据量大到说你在单机上已经处理不了了,所以你一定会有。一所以对你一定会有。这么一些相关的处理的方式,在大大的很大的数据上去做处理。
比如说你可能需要去写一些m reduce job。那如果你对这个不熟的话,okK那你对cicle熟的话,你也可以写一些类似于还 circlecle这样的数据去做一些各种各样的数据仓库搬砖的一些事情啊。
我们把它叫ETL好,然后你会做你会花一大部分的时间去做各种各样的数据的清洗。因为你拿到手头上的这样一些数据,真的不一定是。可信的也不一定是按照你的想法去按照按照真实的分布去展展现给你的。
所以你会做各种各样的数据清洗的工作,包括里头的一些离群点,一些nice,各种各样的东西,你得先给它清洗掉,保证我们拿到手这上数据是可信的。后面会有一些工作去做各种各样的分析业务,去找特征。
你做你你所觉得觉得技术非常非常精湛的这么一些team,包括阿里的team,包括啊百度做广告的这些team,实际上真的有有一些同学是专门做这个事情的。我们我们组之前有同学专门就是做。
feature相关的各种各样的特征的组合,各种各样特征的一些呃变换,一些映射,看看能不能有实际效果的一个提升。然后你你会认为像有有同学啊学了后面的。
比如说我举个例子说GBDT或者是啊O啊SVM大家都知道有这个RBF kernelO高高斯高斯盒,然后会有一些 polynomial kernel。你知道这么一些算法以后。
你一定会觉得说像非常非常简单的算法,像老g这样算法,你不太想用,对吧?我就想用这些高级的算法,但我会告诉大家,实际上你现在去看这个。弹窗。好,实际上大家你你实际上你你工作的话,你会发现啊。
像呃阿里或或者是百度,它真正核心的部门,用 machine learning的部门,它一定会用一定会有一个log regression这样的 modelel在baseline model在因为这个模型非常非常的可控。
对他们上了一些我们呃之前就是组内的话是上了一些deep learning的一些model是有深度学习的模型在的。但是这些深度模型深度学习的model的话,我们后面讲到的时候,大家会知道它。
它是一个black box,一个黑盒,所以它能出好的结果。但是一旦它出了不好的结果,或者是它坏了,你现在很难找到原因,定位到原因到底是哪哪样一些样本使得他做了这样一个变成了就现在这样一个判定的一个标准。
或者说是哪部分的特征出现了问题。你不是你是不知道这个东西。我们需要有一个东西能够稳住现在的这个当前的这样一个。准确率或者说一使得它不至于太差。那那这个地方对用的就是啊logdirect。
SVM呢这个模型严格意义上来说是这样的。我我的理解是SVM在小的数据集上可以拿到非常好的效果。你通过各种各样的 kernell的映射,能拿到非常好的效果。但是在特别大的数据集上的话。
你很少会看到它的使用特别特别大。比如说像电商这种一天能产生多少亿的数据呢。
对。OK好。
人工智能—机器学习公开课(七月在线出品) - P10:机器学习完成数据科学比赛案例精讲 - 七月在线-julyedu - BV1W5411n7fg
好好好,我们做一个小小的分享啊。所以今天这个分享呢是一个唉大家最近大家前前段时间看到新闻了吗,对吧?新闻里面在说好像是中中科大最早用这个思想去。😊,完成这个大学生的一个助学金的一个发放。
但是用的不是咱们今天这个方法啊,用的不是咱们今天这个方法。😡,他这是一个基于大数据的方法,大家就是统计一下你每顿饭花多少钱在食堂里面。如果这个。花的钱比较少的话。
然后你你可能每一顿饭如果都在4块钱以下啊,比如说男生在4块钱以下,有可能这个东西就是一个。贫困的学生,对吧?当然这个东西本来要和这个要要和其他的一些东西去观联啊,要去取证一下。
万一某些这个二代们在食堂里面每次就又去要一瓶可乐,这也是很很尴尬的一个事情,对吧?所以啊那种方式呢还不是一个。😊,纯自动化的方式。我们还需要人工的去做一些介入。
那我今天给大家讲到了这个所谓的这个大学生助学金的这个精准资助的预测呢,是有这样一个愿景。大家有这样一个愿景。觉得说如果现在校园卡越来越发达了。校园卡越来越发达,所以你的所有的行为。
很多同学的如果是在校的同学啊会知道,现在有很多学校的这个所有的这个饭卡水卡或者其他的卡,在在我读书的那个时代,我们有非常多的卡,那现在我听说很多的学校都只是一张卡一卡通,对吧?
所有的东西都是用那一张卡可以完成,包括学校的超市,包括图书馆包括各种各样的数据都其实都记录在一张一张这个学生卡里。所以你的学生卡里面,基本上包括了你囊括了你这个人所有的轨迹,对吧?😊。
囊括了你这个人所有的一个生活的轨迹。那按照这个道理来说啊,我们既然你这里头涵盖了大量的轨迹,包括你进出宿舍,你去图书馆,你这个在食堂里是饭花了多少钱,你就超市里头买了什么东西。
那应该就知道可以知道你大概是什么样一个生活水准的一个人。OK所以其实应该我们就能从这个里面去做一些更加个性化的一些资这个地方的愿景啊,大学生助学金的一个精准的一个资助。所以这是因为这样的一个愿景。
大家可以看到这个地方,今天给大家讲的案例,就是这样的一个案例啊,这个是大家知道很多数据科学的比赛是企业和这些。数据科学的平台一起来发起这样比赛的吧。那这个地方是一个寻道科技OK所以大家认为在大数据时代。
我们有越来越多的数据,而且这些数据呢会被集中起来。所以我们说这个时代是一个没有隐私的时代。😊,你的所有的行为,所有的网上的任何的记录。实际上。伟大的国家要是啊伟大国家已经有了,所有大家的记录啊。
OK所以呃对大家要要要这个多为祖国做贡献啊,不要搞事情。OK所以这个地方有一个任务,就是说我们他他把这个场景缩小了一下。所以在大概在这样一个场景当中呢,我们会有。😊,OK在这样一个场景当中呢。
我们会有一些数据,但是数据量很小,是高效的一些相关的数据。然后大家在我那个时代啊,反正大家凭助学金的话,可能你要写各种各样的申请表,去跟这个呃导员、辅导员去和班主任去沟通,对吧?然后再去这个写申请表。
然后去去有一些论证啊,证明你这个加条比较贫困。然后最后去把这个助学金搞下来。OK那那现在既然大家的一卡通里头其实有实时的各种各样的数据的话,我们应该利用这个数据来做一个呃相应的更精准的一个预测嘛。
所以我。😊,这个时候呢就不存在说哪些同学对吧?我拿着助学金的钱去买一个iphone,对吧?然后那些真正需要这个助学金的那些人还在啃馒头。O所以这个地方的话。
大家可以看到数据呢是2014年2015年两年的这个助学金的情助学金的获取情况作为标签。当然这些作为标签的数据呢,实际上就是大家看到的,通过这个辅辅导员的一些交流啊。
然后根据辅导员对这个这些同学的一些认识啊之类的评出来的。当然是也会包括成绩在内。所以各种各样的因素,最终大家人工评评出来的。所以我们我们期待的事情是用这些东西就作为训练样本以后,我有没有办法从这些。😊。
人工通过大量的精力标注出来的这样的一些label上面去找到我的一卡通数据,到这个最后的这个label这个结果的一个映射,也就是我们学到的这个模型,这个模式嘛,对吧?我们希望去期待去找到这样的一个东西。
然后这个地方有相应的一些数据啊,大家可以看到,包括说消费的一些数据啊,图书馆的借阅的数据啊,寝室的门禁数据啊,图书馆的这个门禁数据啊,学生的排名啊等等啊,有这样的一些数据。
然后当然你的label就是之前我说的人工标注的一些label啊,就是说你的导员可能跟你去谈话,你的班主任跟你去谈话,然后你可能要从家里这个提供家里头的一些这个情况说明拉拉之前的任何的所有的这样的东西。
人工评拿评审出来的一些助学金的一些情况。然后用这个数据去。我们希望从这里头挖掘出来一些模式。那这个地方下面做一些小小的说明呢,我给大家这个把具体的这个说明写了一下。
就是说其实我们是利用2014年9月份到2015年9月份的数据预测这个学生在2015年的一个助学金的一个情况。OK然后这个是一个比赛,这是当之前的一个比赛。然后这个比赛呢其实是今年呃在之前刚刚结束啊。
在6月份刚答辩完的一个比赛。那这个比赛的复赛是在2月份切的数据。啊,数据描述呢就是如大家所示这个地方看到的这个数据的一个总览的一个情况,大概是分为两组啊,会有训练集和测试集。
每一组都是大概1万名左右的学生的一个记录,会包括刚才我们给大家说到的这个记录啊,大家都知道会有训练集和测试集嘛,所以所有的图书馆借入的数据,一卡通的数据,寝室的门禁的数据,图书馆的门禁的数据。
学生成绩的数据和这个助学金最后的一个获奖情况的数据呢,实际上都是已经给大家的那我们当然把这个东西已经分已经分成了训练集和测试集,对吧?😊,那去年级和测试集的学生呢,这个没有ID的交集,没有ID的交集。
对,因为。这个呃大家知道这个这个地方做过一些做过一些脱敏啊,所以没有学生的铭文的数据,只有学生的ID。有同学大家怎么进来,大家告诉他们一下,这个mac的同学看不到的。好吧,所以用手机用手机m克同学的话。
把手机的QQ升级到最高版本,用手机或者是换一个windows电脑。OK好吧,然后上这个进这个群视频啊,平板也看不了,好吧。😊,然后这个地方的数据的详细的说明呢,就是我们刚才有一些我们刚才。
我今天讲到的这个案例是我已经在交代背景了,好吗?我已经在交代背景了。这个案例就是一个用学生的助学金精准预测的一个案例。Whats。这个时候的数据的一个详细的描述,大家可以看得到。
图书馆的借阅的数据是这个borrow掉TXT里头,对吧?所以这个地方有所谓的训练集和测试集啊,他给以大家他很这个比赛很友善啊,所以他给大家给了一些提示,他提示大家说有一些图书的编号是缺失的。
所以字动字动描述和示例呢是下面这个样子啊。所以大家可以看到,其实你在。图书馆的这个一系列的记录在这个地方都会有,包括说这个学生的ID其实这个是大家熟知的这个CSV文件,对吧?我们用读到内存当中。
就是一个一会会有代码,一会会有代码。所以大家不用关心不用太担心。一会我会告诉大家从最简单的模型像逻辑回归这样的模型一直到我们会用GT会用会用和去预测。然后最后会有一个啊来用用去搭一个神经网络。
吧搭一个神经网络去完成这个然后我会再给大家去呃简单的分享一下第一名的这个方法,那当然这个方法是当然是这个不并不是我错的,我看到这个方法我觉得第一名团队做的非常棒。然后比第二名成绩要高非常多。
我觉得他有一些事情做工作做的非常的好,我觉得可以拿过来,大家一起去学习一下,非常值得我们一起去学习一下好。😊,所以这个地方大家看到的记录大概是这样的,每一行呢都会有这样的一些字段,学生的ID借阅的日期。
图书的名称和图书的编号啊,我们先脑洞一下这个事情啊,你想一想助学金发给助学金,发助学金的这些同学呢,当然本身贫困肯定是一个必要的条件。那另外一个条件肯定是说你还是愿意学习的对吧?
所以你在图书馆里头借一本武侠小说和你去借一个这个考研的书籍肯定是有差异的对吧?所以所以这个可能是一个一个纸呆的维度啊,我只是带大家脑洞一下,因为这种东西最后对最后的结果的预测一定是取决于特征。
那这些特征从哪里来和大家的实际的这个理解是有关系的。😊,那一卡通的数据呢是这个地方的这个card这个新点T啊,这说明会有很多card很多一卡通的这个数据。那具体的字字段的话。
大家也可以看到学生的ID消费的类型地消费的地点对吧?消费的方式消费的时间,消费的金额,剩余的金额,我在讲这个课的过程中呢,我希望大家能够对做这个分享过程中呢,大家可以对这个内容去提出一些问题。
如果其他东西有问题的话,大家可以跟班主任去交流一下好吗?跟班主任去交流一下。好,我我就说这么多。然后我接着说咱们的案例好吧,做的这个分享所以这个分享里头。
第二类数据是这个地方的一卡通数据一卡通数据的话会有字段的描述和事例。所以大家看到大家下面这个样子会学生的ID消费的类型,消费的地点,消费的方式消费的时间消费的金额,消费的剩余金额啊,这个地方很有意思啊。
我们在这份数据上去脑洞一下。你想一想这个事情啊,那剩余金额里头其实代表你有。😊,多少钱?那你消费的地点其实会有很多的地点。如果我可你去看,我做了一些小小的统计,会有很多的地点。
比如说食堂每个人都要吃饭吧,但我在食堂消费的金额会不一样,对吧?那有些人有些有一些这个二代们可能吃一顿在食堂吃顿饭都要吃个这个23034十,对吧?那可能这个贫困的这个学生确实有可能就这个在大学里面消费。
比如说午饭或者晚饭可能就在4块钱以下,对吧?33块钱左右,这个确实是有可能。😊,然后。呃,这里头有一个很有趣很有意思的类型叫做洗衣服。那反正我念书的时候,我是没有用我学校的这个洗衣设备的。对,因为毕竟。
穷嘛?OK好,然后再往下的话,O这个地方会有一个寝室的一个门禁数据。OK寝室门禁数据呢,大家大概就说几点进几点出,对吧?😊,O寝室的门店数据,我们来脑洞一下,爱学习的孩子都是。😊。
这个带个图书馆或者去教室的对吧?OK好,但这里有一个问题啊有一个问题啊,你大家不要觉得早从教从实验早早从这个宿舍出去,然后又晚回宿实验室呃,返回宿舍的这些人一定是在学习。😊。
对吧所以所以有可说不定你是出去浪了呢。对吧所以这个时候大家都想象的时我要配合的用嘛,这个地方有一个寝室的一个门禁数据,还有个图书馆的门禁数据。如果你从寝室出来了,你去你图书馆了,那说明什么去学习了。
对吧?啊,当然我也不排斥有个别的同学跑到图书馆不知道是去做一些什么样的事情啊,这有些有些有可能去读小说或者其他的事情啊。但一般情况下,至少你去图书馆了,这还意味着说你还是任意在这个教室啊。
图书馆啊这样一类学习的学习的场地以后去去进行。对去这个做这个事情,所以我们老对下这个事情啊,所以你可以想象到有很多东西可能会对我最后这个预测会有帮助。对,所以这是通常是第一步,我们在读对题目的时候。
我们就会有这样一个大致的印象所。哎,好像这个因素可能会有一个影响,对吧?😊,最后是一个成绩,成绩这个东西呢只是一个加分项啊,我我理解说助学金这个东西呢,其实并不要求大家说我一定是需要我助学金这个东西呢。
我并不是说我一定是需要说拿到前三名或者怎么样啊,其实它更重要的是他的这个贫困的这个属性。所以这个地方有一个学生的一个成绩的数据,实际上我理解这个数据是一个补充的数据,对吧?我们理解这个数据。
所以这个地方有个scorreTXT啊相关的一个成绩的一个排名。那这个地方是做过这个地方是。做过一些处理的做过一些处理。所以你看不到具体的学院的名称,你看到这个看得到这个地方。
学生的ID学院的编号和成绩的一个排名,这个你是可以看得到的OK然后。这个地方呢其实如果大家愿意去分析一下的话,如果大家愿意去分析的话,你会发现一些很有意思的事情。比如说我不清楚大家问书的时候。
学校里头学院和学院之间会不会有差距啊。因为有一些有一些这个学校的话,他可能某一个某些学院特别学院特别强势。那这个学院可能会拿得到一些更多的奖学金,更多的助学金,对吧?
所以每个学学院的这个助学金的比例其实也是不太一样的。OK肯定也是不太一样的。😊,然后再往下的话,实际上就是这个助学金的一个金额。助学金的金额的话,其实它。也没有并也也是这个之前人总结出来的嘛。
所以这个地方的话,大家可以看到发放的有这个1000元,对吧?1500元和2000元,有有这样的相关的一些助学金的一些金额啊,当然有很多很多0元了,对吧?这些这些二代宝宝们是不需要钱。
不需要学校赞助的O当然你要是愿意花个给他打个1001500块钱当零花钱,他也很开心。所以最好把这个事情做精准一点,不然的话呃,我们国家去赞助这些学生钱就白白浪费了。好。
所以这些问题的一个叫整体的一个交代,我给大家说清楚了吗。这里头大家看每一份数据,每一份数据里头都会有一个字段叫做学生ID所以这些学生ID实际上是什么呀?如果你把它看做多张表的话。
是这些表的一个可以关联的一个key,对吧?可以关联的一个一个一列好,所以这地方我们总共有5份数据。我给大家快速的。😊,过一下,可能呃快速的过一下我们的这个解法啊,就是我草草写的一个解法。
这个解法呢不一定保证能到什么样一个。程度,但是能我们能说明我们大质解这个东西的一个过程。大家一定要知道数据科学这种比赛啊,它是一个长期的比赛。它和大家去刷ACM不一样啊,刷子 code对吧?
我他这个可能在一天或者多长时间内啊,几个小时内我就把这道题做完了。那数据科学的事情很多时候是我们要做大量的分析。我们去看我数据的分布,对吧?我们去看我们这个数据的这个他自己内在的一些分布下。
我什么样的一些构造出来什么样的特征,可能对这个场景是有帮助的。然后我去做预测,我预测不好的情况下,我把我预测不好的一些case。那些。😊,预测不太好的那么一些样本拿出来,我去看到底为什么预测的不好哦。
这个因素我漏了,你再回去再做补充。所以这也是一个迭代的过程,和我们机器学习的过程是一样的。所以这个过程呢就使得我们这个。机器数据科学的这个比赛呢,我我们会有一些模板,像像我要是参加一些比赛的话。
也会有一些模板。但这个模板只能帮助大家可能到呃前15%或者怎么样的一个一个状态。但你要再往前爬的话,其实你需要去对应的数据,确实需要去做一些分析,做一些研究。好吧,所以这个地方我先交代的一个背景。
然后我们来看一看第二第二件你要做的事情叫做datacleing叫做数据的这个对数据的清洗,数据的清洗。按照按照常理的话,大家都知道助学金是给家庭有困难的学生这个。😊,去发的对吧?
而学生的消费消费情况其实肯定是一个很大的一个影响,就是能反映学生的一个经济状况。所以这个地方我给大家写的案例啊,其实很简单,我没有去用那些宿,我刚才给大家恼洞了很多,我说从宿舍出去。
然后到这个去图书馆怎么怎么样,对吧?然后每天的这个消费可能在啊消费我我这一地方做一些小小的分析啊,就是他有很多维度的东西,实际上是可以大家去做。😊,更进一步的一个。对,更进一步的这样一个分析的啊。
这个是我自己的服务器,所以我没有对对外去公布。大家不要问我这个ippython的密码是多少,好吧,然后这个地方的数据的分析和数据的清洗是大家经常要做到第一步。这一步的话是一个按照。大家直观的理解。
觉得这个经济消费状况会。能够直接的去体现一下。这个学学员这个学生的一个一个能否获得这个助学金这样一个依据。所以我这个地方啊,我说我做的这个其实是一个初始的版本。但我这里都涵盖了很多的模型。
我我想带大家看一下,我从最简单的模型到呃比较相对比较复杂,这种深度学习。我们怎么去解决这样的一个问题啊,但是特征的部分呢,我没有做太多的迭代。当然我一会会最后会给大家去讲一下这个呃我也是在学习啊。
就是这个第一名的这个分享团队分享出来的,他们的一个做法。所以我觉得这个东西呃就是看完以后收益很大,所以给大家去做一个呃小小的。电系ok。好。😊,呃,OK所以这个案例下呢。
我们第一我们我们首先我们我们考虑这是我们自己想到的一些相关的一些信息嘛。所以再往下的话,大家可以看到下面是对学生的数据的一个处理。所以学生数据已先把数据读进来。
这个地方刚才大家看到了card点 card chain和 test点t对吧?两个训练集和测试集,我们会有一些字段的名称。我们给他标一些字段的名称,比如说学生ID消费类型消费地点消费方式。
消费时间消费金额剩余金额。然后我们把这个两份数据读进来。然后我去做一个拼接。因为训练级和测试集做要做同样的变换嘛,那如果这个东西方便的话,我们就直接把两份数据拼起来,直接拼起来。
然后这个地方name score呢是我觉得成绩这个东西可能对对大家的这个评最后的这个判别也会有一些影响嘛。所以这个地方name score就是。😊,我也给大家。把这份数据我们也把它读进来。
我们相信他对最后的结果也是有帮助的。所以我主要用到这两份数据,那其他的这些宿舍的进出的数据呢,其实也很有用啊。包括图书馆的一个我刚才给大家脑洞了一下,我说你可能看的书可以体现出来你的。
就是确实是一个爱学习的同学,还是可能会是一个呃会会会。有自己的一些空闲时间,娱乐时间的这样的一个同学。当然我我可以再给大家说一点其他的一些一些东西啊,就是我们在做比赛的时候会想到的一些东西。
我举个例子来说。😊,这个地方数据做过脱敏处理,所谓脱敏处理就是加密嘛,所以你看不到它是哪个学院,学院用ID来指代了,对吧?ID用ID来指代了。但是这个脱敏做的很彻底吗?其实不一定,为什么呢?你想一想。
😡,你在图书馆借的书。其实在一定程度上能体现你学的专业可能是什么专业的?所以这里头其实存在大量的,大家可以去合理的做假设和推断的一些事情,可以去做,对吧?比如说。长期借阅这个法律的这个书籍的。
可能就是法学院。啊,我们只是这样说,但这个东西有没有用力说我只是说这个数据里头有很多隐含的信息,对吧?有很多隐含的信息。O。😊,所以这个地方呢我们把这样两份数据集读进来。
同时我同时把这个训练集和这个测试集去做一个拼接,对吧?训练集和测试集去做一个拼接。然后我们看一下这个数据的一个量的大小,数据的一个量的大小啊,首先是一个得分的这个数据量啊,大家都知道读进来以后。
就是一个长像excel一样的这样的一个结构,对吧?一个data frame数据帧,所以这个数据帧的情况下,大家可以看得到它的一些情况,包括这个学生的ID学院的编号和成绩的排名。
这个当然我们刚才在数据介绍里头,大家已经看到了。再往下的话是这个我的这个一卡通消费的这个数据啊,相关相关的信息。所以大家看到这个地方有。学生的ID对吧?消费的类型消费的地点,消费的方式。
那你看这个消费的方式对吧?有淋浴,有这个打开水啊,有些同学可能是喝这个矿泉水的对吧?他可能不喝开水,O那这个地方有消费的金额啊,剩余的金额等等。所以再往下的话。
我们看一下这个一卡通的数据里头到底有多少个学生,所以你un unique表示说我取出来所有不同的学生的ID对吧?那我前面这个长度其实是21631,他就说明我们总共有2万多个学生的数数据。
我再看一下他总共有多少种消费,然后我看看他的这个消费呢,我可以对这个car这个消费方式去。做一个 describescribe。😡,那做一个describe,它本身是字符串型的嘛。
所以我做一个描述以后呢,就看到了说它总共有这么多都这么多个技术,也就有这么多条记录啊,所有的学生他有这个地方有啊个十百千万、10万百万千万2000多2000接近2400万条记录。这个一卡通的消费记录。
然后里头排在最前面的呢是食堂,因为人人都要吃饭。O然后这个地方总共有11种消费方式,11种。我们来看看有哪些消费方式,所以我写了一个货循环,我从这个消费方式去读出来所有不同消费方式。
大家可以看到这个地方有淋浴有开水,有其他校呃这个洗衣房,对吧?看到了就是老师当年穷的没没有去去不起的地方,O然后有一些宝宝们也是很有钱可以去的。有文艺中心,当然我猜我猜测文艺中心最火爆的时候。
应该大家要毕业的时候就打印论文,对吧?或者是到了期末的时候,大家要去打印一些资料啊,这个时候可能会很火,有教务处有图书馆食堂校车,还有超市和校医院,我在校医院这样记录肯定是很少。
所以我来做一个小小的统计。家都知里头的以做一个做一个对各种类有的一个统计。所以你看到食堂的数据是非常非常多。食堂大概有900多。O。😊,然后开水有700多万啊。
说明还是这个啊喝开水的人还是还是比较多的啊,打打水的这个记录还是没有那么多的人说一直喝桶装水好,然后淋浴、校车、超市人家洗衣房也不少啊,洗衣房也不少,这个地方有60多万,对吧?有60多万。😊。
然后图书馆有50多万对吧?图书馆有50多万,然后。在这个地方呢会有文艺中心,我说文中心可能是某一个阶段的人会比较比较容易去OK教务处啊,教务处,然后其他校医院那校医院就不太多了啊,这个记录。
然后再往下的话,我们当然要对缺失值去做一些处理然,需要去看一看哪些。值它是有缺失值的。比如说有一些数据里头是拿不到这个消费的类型的,有一些数据里头是拿不到消费的地点的,有些地方是拿不到消费的方式的对吧?
OK好,所以有这样的一些缺损的数据,缺损的数据。所以再往下的话,对于缺整值的话,我们肯定要想办法去填充一下嘛,我们主要想办法去填充一下嘛。所以填充一下比较粗暴的方式是什么呀?大家想想类别型为。
我们一般用什么东西去做填充啊。用种数对吧?用种数就是出现最多的一种类别去做填充啊,当然了,我自己做了一个解释,我说这个地方呢其实你可以通过其他的维度来进行一个分析和填充。我举个例子来说。
今天这个人今天这个人刚吃完这个饭,对吧?我在半个小时前刚吃完饭,我又我在半个小时前就刚吃完饭,我。现在又有一条记录,那我肯定不能。因为这个以为我我一般不太可能半个小时就去吃一次饭,对吧?
不太可能半个小时去吃算。所以这个地方的话我去做一次做一个填充啊,我的填充非常粗暴。我把所有的缺省值的部分都填充成食堂了。O都填充成食堂了。我们来看一看每个学生的总消费情况,总消费情况。
所以你可以对学生的I去大家都基本操作?学生做一个分组个消费金额去一个当然你可以去做后面做各种各样聚合操作你可以做一些求平均啊,可以去做一些求这个啊最大最小值啊对吧?
然后里头的百分之多少的分位数啊都是可以算那我简单做一个求和单做一个求和然后这个地方简单做一个求和,大家可以看到前面的这个20个数据,20条数据概是这样的有些数据很奇怪。
说学生是个同只有40多块钱的消费啊,你猜猜下个同是不是在学校外面去做?能外面后再下的话大家看到的是这个我。😊,对每个学生的这个类消各类别的消费去做一个统计。为什么呀?我们刚才已经说过了。
我说那些天天在超市买东西的那些人,那些二代们,你就不要给他买苹果手机的钱了。好吧,然后去去这个天天去这个洗衣房洗衣服的这些同学,你也可以不用给他们这这部分钱了,对吧?所以我这个地方呢。
我们对学生的消费的方式对他的按消费的方式去对这个消费的金额去做了一个统计去做了一个统计。所以做了一个统计以后,大家就看到这个结果大概就找这个样子嘛。那当然会有一些缺认值啊。
因为并不是每一个同学都有这个消费的。我说过,比如说这个地方的2号和3号同学,可能他在文印中心根本就没有消费,我不需要打印东西。😊,对吧我不需要打印东西。所以这个地方你看到有数字的呢。
就是我实际上有这个类别的这个统计值,我就能拿到一个数据。如果没有这个类别的统计值呢,我们最后拿到的是一个缺损值。对吧我们拿到的是一个缺损值。然后再往下的话,其实缺损值的话,这个地方有很多很多的缺省值啊。
这个缺诊值就是表示它没有记录嘛,那没有记录,我们做一个什么样的处理啊,填充个零呗,最简单的形式。对吧最简单其式填充一个零嘛,所以这个地方的话,我去fiel一下这些缺损值。
表示我按零去做一个填充feel这里头的这个缺损值。好,所以再往下的话,我们来看一下,我们填完缺损值以后的结果哎好看多了,对吧?所以你会看到有同学在开水上啊能打400多块钱的开水啊,这水量也是不少的啊。
400多块钱,以以我以我当年对这个打打开水的这些东西的消费状况来看啊,应该是当时应该是一毛多钱可以可以打一壶吧。OK所以。😊,对,所以这个地方大家看到这个呃好对。
所以有有同学注到了注意到了有些很神奇的事情啊。比如说这个地方的开始,有人花了2400多块钱啊,2400多多少钱。你猜猜看有可能是什么原因,有可能是他们宿他是他们宿舍的小弟对吧?
然后另外5个人可能天天都在撸啊撸或者是在在这个啊对玩游戏,然后一个宿舍一个宿舍全靠他啊,天天这个食堂也靠他打饭对吧?带带5份O这是有可能的啊,所以所以对,所以这个这个时候呢,就是大家就可以开到灯啊。
想一想哪些东西可能对最后的结果会有有这个影响啊,你看有同学说了,如果宿舍6个人的话,你数一下是不是差不多400多对吧?我们刚才看到一个人消费大概400多,所以这是有可能的嘛?对吧?宿舍就要多干点活。
打点水怎么了?OK所以我们把数据去做一个拼接。刚才的数据已经出来了,我们做一个小小的拼接,所以这个地方的话,我们做一个ca把它拼接起来,所以。😊,这个地方conca大家都知道吧,就是我有消费金额的数据。
我我可能还会有一些这个呃对我这个地方就是我会有一个总消费金额的数据,还会有一个按照不同的维度的一个消费金额的数据。然后一会可能会去做一些统计型的数据啊,比如说我去看一看每一个维度的数据。
它占比是什么样的。比如说你90%的钱都花在这个吃饭上食堂,对吧?10%的钱花在开水上。那有可能啊sorry,那不行啊,那这个人可能不洗澡,我说错了,抱歉,那80%80%这食糖好吧,10%这个开始打开水。
10%去洗澡。好,这就是这个人可能就是一个这个啊很就是经济状况不一应太好,能省则省的一个人。好,所以这是我随便举一个例子啊,就是说这些数据呢,实际上他们可以出现很多统计的这个数据。
可以帮助我们大家去理解说去去帮助我们去推断最后这个结果,对吧?我该不该把这个奖学金给这个人。OK。😊,所以再往下的话,我就处理一下这个学生成绩数据。前面我就简单做了一个处理。
然后我就处理一下学生成绩的数据。学生成绩数据也一样啊,我先按照学生的学院的编号,因为我已经给大家说过,我说这个大家上过学的同学,尤其是一些尤其是一些综合大学的同学,你会知道我们会有很多的学院,对吧?
但其实学院的这个学院的学生的量,包括他在这个整体在学学校里头的一个地位其实是不一样的对吧,比如说有些理工科的学校,你一些这个什么呃文学院的一些一些这个对吧?他可能可能。😊。
外语学院啊之类的可能就没有那么的受宠,所以他可能能能申请到这个助学金的量就不是太多。所以这个地方我们咕扒一下,我们按照学院的编号,我们去做一个小小的这个啊分组。分组以后。
我们把这个学院的这个成绩啊拿过来去做一个transform。这个地方的transanceform呢是。学学生的排名数据他应该是一个。顺序对吧?是一个顺序,学生的排名数据。
那我这个地方做了一个对这个东西去做了一个这个叫什么?这个变换是什么?减去均值除以方差是什么?减去数均值除以方差是么?就类似于一个标准化的一规一化的一个操作嘛,对吧?所以这个地方的话。
okK对规一化的一个操作。我们做规划的操作以后呢,其实它能保持住这个序,它能保持住这个序,对吧?😊,O。好,所以保持住这样一个序,大家可以看到是这样类似这样的一个结果啊。其实我只是为了让我的这个数据呢。
它这个幅度能够是一个相对比较合理的幅度。你不要出现说这个里头有几千个值,对吧?因为因为有时候我们一个学院里面,我们一个学院里面它会有几千个有有有几千个人OK那你排名拿到几千。
那这样的值可能从零开始到几千都会有。所以所以这个可能会对这个呢会有一些呃小小的问题啊,所以我去对它做了一个规划,做了一个规化。所以这个地方大家可以看到是这样一个结果。那我把我清洗完的这个数据啊。
包括我分门别别列分门别类的把这些不同的消费的类型去做了一个汇总的这个消费的状况,以及我的这些啊大家看到成绩的排名啊,分别把这个处理后的数据把它写到本地的文件。因为我即将打开第三个文件去做做一些相应的。
一些处理。所以大家可以看到这个地方呢,第三个文件实际上是说我们去做一些相应的处理。第三个面呢就是就是一个数据的分割啊,还没有还没有还没有到严格意义上还没有到这个建模这这个部分。
所以我们做一个小小的数据的分割。这个地方的话,我们把card数据和sre数据先。丢进了先读进来。所以card数据大家可以看到是后面这个我们从clean对clean card点CSV然后去读进来的一个card数据sre呢是我们刚才写出来的这个处理后的一个规一化之后的一个clean score这样一个数据。
对吧?拿到sre这样一个数据。我可以对这样两份数据去做一个什么呀,做一个拼接。实际上它也是能拼接上的嘛。我根据这个学生ID去做一个拼接嘛。对吧。😡,OK就是根据学生的1个ID去做一个拼接嘛。
所以所以大家就可以看到是da塔,最后就长成这样。大家看到了吧?就是我把我要的信息都拿过来。其实我们很多时候做数据科学的这个比赛啊,自己处理数据的过程也是这样的,我们会对很多维度的数据去做处理。
我们会产出一些新的维度,然后我们会把这些不同维度的这个数据呢拿过来去做一个做一个整合做一个拼接,对吧?所以拼接完了就是你可能会造出来很多很多特征,他们在不同的这个表里面或者不同的位置里面。
那最后呢我们对这个东西去做做一个统一的一个拼接起来,表示说哎我有这么多的维度,可能都可以对我最后。😊,对我最后就预测结果可以去。提供这个一个依据,对吧?提供一个可靠的依据。所以大家可以看到。
现在呢实际上我就是把这个成绩的排名,成绩的排名和这个消费的金额呀,以及这个地方的一些大家看到图书馆的数据啊,开水的这个数据啊,一些消费的金额啊,把它把它给它都整合到一起了。那我们可以去看一下现在的情况。
就包括这个地方现在还有没有一些缺损值,对吧?有没有一些缺损值,那你会看到这个地方的金额,消费的金额里头还是会有一些缺损值啊,那成绩排名也会有一些,因为我当时做的事情,我做的东西是拼接嘛,对吧?
我做的事情是一个拼接。所拼接的时候,我有一个依据拼接的这样一个con,一个con。对吧所以这个con的话,我拼接完,我针对这一列去做拼接。如果我是大家都知道我做这个两个表的关联。
我有这个innerjoout join对吧?left join right join之类的。所以你不同的join方式呢,可能会产出一些通过这个join可能会产出一些这个。通过这个交易操作。
可能会产出一些缺损值,这是有可能的吧,就是左边。可能会有这个ID右边没有,那你按照左边这个left join去做le join的话,可能它就会。对,会产生一些缺省值。所以这个地方会有一些缺损值。
然后缺省值的话,我作业方式很粗暴,大家完全可以去做更更详细的一个优化。我这个地方只是做了一个简单的处理。因为机器学习里头你不能有缺省值,这个事情是不O的。要不你把这条记录掉,要不你把这条记录掉。
要不然的话你去做一个想办法做一个填充或做一个推断。那这个地方的话,我们是用ta点去做用均值去做一个填充,对吧?我去view一下这个NA用贝塔表面去做一个填充。
然后in place等于说我就地我在我的数据集上就地去做一个填充O然后大家可以看到现在啊再再看现在已经没有缺省值了,对吧?每一个字段缺值的量都是零好,很棒,然后我现在就可以去把这个地方的这个。😊。
就是我的训练级的这个标签啊,就是我最后的这个助学金的这个情况读进来了。所以我把助学金的情况读进来,你可以看得到有很多人的助学金的情况是0,对吧?
然后我们可以去做一个value countvalue count就是我统计一下不同的类别分别有多少个。那你看到有9000多个同学啊,都是呃经济状况不需要达不到说我去发这个助学金的这样一个状况啊。
当然我们不排除说这里头有一部分人其实是很需要。这个助学金的,但是有少量的人可能是很需要助学金的,但是没有覆盖到他们,对吧?我们给错,这有可能的,因为这个历史的训练数据嘛。
那么假设这个我们假设他的这个就是一个光一个标准答案啊,是完全O的。好,就有9000多个同学呢是没有拿到助学金的,有700多个同学拿到1000的助学金,有400多个同学拿到1500个助学金。
有300多个同学拿到了这个地方的2000个助学金啊,但这个地方有个小小的问题啊。有没有同学现在看到我给大家看到这个value count做完这个统计以后,你们告诉我我们做这个问题的时候。
可能会有什么样的一个可能会有什么样的一个问题。就是针对这样一个Y,针针对这样一个target一个Y去做这个productdiction可能会有什么样的一个问题。对吧这个是。样本是不均衡的对对对对。
有同学说的非常棒,这个样本是严重的unbalance严重的unbalance。所以这个地方的话大家一定要注意啊,这是非样本非均衡的这种分类的状况。所以你需要去做一些处理,大家需要去做一些处理。
这有哪些处理。一会我们从最后的这个啊第一营的这个团队的一个分享里头,你可以更详细的看到这个事情好,所以再往后看的话,大家可以看到我是做了我从这里头把训练级和测试集其实是拎出来了嘛,拎出来了。
我的训练级以后的Y训练级里头的Y是呃这个Y嵌是这个地方的助学金金额嘛,这一列对吧?助学金金额这一列啊我这个地方的X。
我这个地方的X是除掉助学金金额之之外的这个sorry是这个data data是我们刚才整合的数据是我们刚才整合的数据里头的这个。这些X对吧?这些参考的维度啊,然后呃为了防止断电。
或者为了防止我这个ipad,回头又得重新跑一遍,我就把它丢到本地。对我这个地方to pick表示我把这个呃PSCSV的这个文件啊,或者说这个最后我做完处理完的这些训练和训练的。
feature和这个最后的Y这个tt去丢到本地做一个存储。所以这个地方有XtX chain和Y chain,对吧?就丢到本地做个存储,方便我们快速待会加载这个。好。好,现在马上就来到了分类的这个。
模型的场景。所以第一个大家想到的分类的模型是什么啊?当然很多同学觉得这个太弱了啊,我知道有很多同学上来就喜欢老师我们用一下GBDT吧。老师我们用一下对要要有耐心。我们从可解释性强的模型先慢慢来来用。
所以可解释性很强的模型是像LR这样的模型逻辑回归对吧? regression它是一个呃非常可解释的一个型。😊,所以。😊,这个地方的话,大家来看我们。把刚才出理人的数据读进来。
大家告诉我LR就是logistic关系你去做训练的话,对于连续值的去做训练的话。你。你一定要做的一个处理是什么呀?你至少要去做一个scaling嘛,至少要去做一个scaling,对吧?幅度缩放。因为。
同学们都知道,当我的每一个co,某的每一个feature,它的scale是不一样的时候,我的每一个ature scale它幅度是不一样的时候,你丢进去做训练的时候,它这个训练的收敛的程度会非常非常的?
而且这个收敛到准确度也不是太太。所以我先用这个地方用的简单预你可以去找任何的这个函数啊ization标准化等等啊那我这个地方用了一个最大最小的一个最大最小的一个?
以我用最大最小的个去对训练几个测试集去做一个什么一个一个幅度缩。所以大家可以看到是拿到下面下面的一形式啊,就比刚了。家消费金额对?到有些宿舍打水的打水的同时导致自己打水的这个金额度。😊。
到2千400多元对吧?所以这个只是一个很大的一个值,所以我们去做一个幅度的缩绑所以拿到下面这样一个啊结果啊,当然这个地方如果大家我我说了,如果大家想这个对预处理有一些了解的话,完全可以把进来你一下?
官方的文档它会给出来一些详细的说明所以这个地方告诉大家我这个地可能会有一些相应的什么样的一些一些处理。
比 imp那可能 imp可能是一个这个值填充对等等等等啊所以它有这样的一些预处理里头会有相应的一些内容,一些函数,你都可以在这里头可以在本地的这个说明文档里头是可以看得到的。大家看到了吧?
这个地方你可以做最大最小?多项式吧标准化等等等等一系列啊in啊,然后做一个吧?😊,你部。啊,对,leal的enr啊编码,然后。m label的一个banok等等等等啊,一系列这样的处理。
大家都知道就是数据的这个特征的预数据的预处理或者特征的预处理,对吧?好,所以这些你们都可以去了解一下,都可以去了解一下。然后我刚才已经把逻辑回顾里头最基本的要做的处理,已经处理过了。
就是我说的要需要去做一次O现在再往下你就很简单,你就去做一个做一个什么做一个呃简单的这个地方建模就好了。当然我这个地方是一个。😊,一个状况是非常的不均衡的一个状况。
所以其实你们需要去处理一下这个地方的话,你比如说你的cor可以取一个F一的一个啊,就是加权后的一个F或者你可家都知道你在训练模型里可以给在模型里面可以给这个啊对不同的类别的一个权重对吧大家都用mod都知道里头会有这个会权重可以传重进去。
说我现在是一比3的样我觉得它不均衡。那你就把一类的那个数量为一的那个样本。说我我给你三倍的权重对吧?就是很简单很粗暴的一个处理方式。
但家有时候比你不理效果还是要好一点的这个地方我给大家简单的说L然后我们这个地方有一个大家很很多刷比的同学都熟一个函数,就是耳熟能详函叫?😊,对吧叫做网格搜索的一个一个交叉验证。网格搜索的一个交叉验证。
所以这个地方大家看到这个 search是帮助我们从我们的参数网格里面去找到最好的参数。所以这个地方基本上下面就是一个简单的一个模板,对吧?大家都知道我这个地方给一个参数的候选集,比如说我现在用逻辑回归。
其实可调的东西呢,就是这个地方的C就是一个惩罚度嘛,对吧?我我逻辑回归的话,可能就是有个正则画像,那这个正则画像到底这个强度约束它的强度去多大,那这个地方的C实际上是可以去给一系列的候选呢。
你们可以随便去给一系列候选可或者给一个range给个rangerange就是从哪到哪对吧?给个步长啊,它会直接帮你写很多候选,然后他会用这个东西去建模,然后你会看到最后的这个F一值大概能。呃。
就是不并不是一很很好的一个结果。这是因为我特征可能做的不是特别的充分,就是带大家过一下这个流程嘛,所以我的特征没有做的特别充分。因为我们来看最。当时比赛最棒的是个解决方案里后,大家做了什么样的特征?
你会觉得哇原来数据科学这个事情或者是数据科学的比赛,我们要花这么多的精力来处理数据,这么多的精力来处理这些特征,最后才能有这样一个成绩,而不是说哎我很f,我我找一个很f的model过来。
我说我用我用深度学习是吧?我用深度学,我搭一个非常非常炫酷的神经网络,我就能把这个最后的结果取得一个非常好的结果。如果你是那种语语音数据图像数据的话,那那OK那可能是这样的对吧?
因为那种数据我没有办法根据人的理解去抽取一些特征,但这个地方不是这个场景是一个大家可以理解的场景,对吧?它数据不是像图像这个pixel这个像素一样。
我大家根本就不是很理解这个Pixel是怎么去去去构成这样的一个。图像上的一个内容的OK所以我们没有办法在在image上面去抽取很。形象化的一些特征。但是在我们现在这个场景下完全是可理解的。
也可以收取很多很多特征。所以这个地方我是带大家过一下这个流程。我们用LR的话,实际上大家要注意的就是这个时候on balance啊,就是样本不均衡,所以你的这个打分啊。
一定要注意是要要要不能再用这个类似于准确率这种打分啊,那那它是有问题的。比如说大家都知道1比99,对吧?一个副样本99正样本,那我全都把所有样本全都全都记为正样本。
我就就根本不做预测来任何的样本我都告诉你是正样本就是是正的这一类它准确率就能能达到99%,但这个有用吗?😊,你的召回率是0啊。对吧所以你不能用那样的评判标准啊,就是给大家提一个醒。
比如说on balanceance的情况下的话,你用accuracy这样的一些准确度这样的。评判标准是没有太大意义的。OK好吧,然后所以下面的事情其实大家都知道了,无非是我可以去做一个fet,对吧?
啊FA就这个函数嘛,fet就做个拟合对吧?然后你去对训练集的特征和训练集的label这个就做一个fe拟合一下,然后对我t就做一个pred对吧?以你拿到了一个结果。
你看这个地方给前三个同学都2000我不确定这个结果。😊,到底可以到什么样一个程度啊?OK所以底下我就把答案写下来了。好,然后我们来升级一下,升级一下的版本是一个花点。😊,大会大家都知道吗?
但正你这个无非就是一个。backing的一个classifier就是一个。比这个投票器稍微高级一点的一个版本啊,其实它它就是有很多个模型,我们会对这个模型的结果去做一个汇总,对吧?
那它的基模型这个集成模型,它的这个基模型,你是可以选任何的模型的那比如说我这个地方呢我就取了一个LR啊,我用的逻辑回归去搭一个逻辑回归做分类嘛。我给你去做一个class就是我每次不取全量的样本,对吧?
取一部分的样本丢给这个逻辑回归去搭搭建一次模型,然后生成一个模型,就是我把所有这些模型的结果拿过来做一个投票。你看到这个地方的bestF一值比刚才要高一点。大家注意到了吗?我单独用LR只能到0。
5197啊,下面可以到0。52啊。521多,但啊这就是模型带来的提高。大家所以大家一定要有一个印象,就是有一个意识就是。在数据科学这个领域,就以目前为止。
我的认识是数据的作用比数据和特征的作用远比模型的作用要大很多。大部分的场景下啊,你我们不说这些那些贝ta那些很原始的语音图像这样的数据,我们抽不出它有可靠的特征的情况下。
你的数据和特征基本上决定了你能达到了上限。所以我这个地方用了一个集成模集成模型,我用了一个集成模型,实际上它的提提升也只是在呃。在在百分位都没有到,对吧?先分位上有个小小的一个提升。好。
所以这就是结果嘛,backgging的一个结果。好,这就是第三个第第三个小文呃,第四个小文件了。然后我们来看一看升级的版本是刚才我们用的东西是对?除大家最喜欢的东西是什么区域 model吧?
树形模型树形模型当然很棒了,我自己也非常喜欢它。所数学模型很典型的两个模型是什么呀啊,当然Dc进去其实大家都很少用了,决策树,因为大家觉得一棵树好像是有一点点不太可靠。所以啊既然一棵树不可靠。
大家多拿点树来了,并行的多棵树叫什么叫 forest对吧?并行的很多棵树它就组成一个森林,所以这叫。😊,这个随机森林啊,它这个随机两个字来源于说我的这棵树在建立的时候呢,我的样本不是全量的样本。
我的特征可能也不是全量特征,所以它会带来一些随机性。但我最后会把它们聚合起来,去综合的做一个判定。那第二个大家最喜欢的模型叫什么?非常非常喜欢的模型叫什么?叫TBDT对吧?大家非常喜欢的两个库叫什么?
叫XG boost和TBM对吧?😊,OK所以你有了这样的package以后,所以大家都。😊,觉得这个简直就是数据就无敌了,对吧?自己去造一些特征。
后丢反正你就会帮我以最快的速度去把这些数给它创新起来去不断的最小化我的 error把我的这个对去把我的错误降所这地带家无就是把我刚才处理好的数据再读进来我的征感已经处理好了嘛,你读就好了。
所以这个地方的Xchan已经做好了Y已经做好了啊,格意义上来说,树形模型不需要去做树形模型不需要大家去做幅度缩放。因为它的在生成数的这个数在生长的过程中呢。
实际上是和你的幅度是没有关系的它找到最的切分点所以这个时呢我我自做。但是你可不用你做幅度缩放。所再下的话是个模而就是一个模而已。所😊,我去起我去对这个 randomdom forest随机森林。
大家看到了吧?随机森林,我对随机森林去做一个参数的调优。这个地方有个参数的字典参数的字典这个参数的字典里头告诉你说有50棵树的集成200棵树的集成500棵树的集成和1000棵树的集成对吧?
最最大深度可以去那7啊最多这个特征数啊就建每棵树的时候,我给特征的百分比我可以给70%特征和90%的特征啊,对吧?那底下的话我就挑出来最好的参数挑出来最好参数以后用这个规大家都知道网格搜索交叉验证。
找到最好的参数以后,你就可以去在全量的数据上去做建模了嘛,所以我初始化一个用最好的参数去初始化一个dompl一个随机森林的一个分类器。然后在我的训练集上去做一个什么操作对吧?
就是把数据丢给他说参数参数你都找到了,你就去给我。做一个拟合吧,所以它就拟合,对吧?然后拟合完了之后,你就实际上事情非常简单,你就做一个prodt。
实际上随机森林的这个建模的过程还是很快的还是很快的那尤其是它的这个参数呢,我这个地方也没有参数列表参数字典我也没有给的非常多,就是候选的参数字典我也没有给的非常多。那相对而言的话。
如果在样本量非常大的情况下,呃,我自己的感觉是GBDT速度会相对慢一点,但是。😊,呃,lightGBM应该比叉G boosts稍微有优势一点。即使是叉7 boosts,现在说已经做过相关的优化了。
至少在我的机器上跑的结果是我感觉我感觉lightGBM是要稍微稍微要好一点点,速性能上速度上是要稍微OK一点的。而且啊我比较懒。所以如果我的训练数据里头有类别型的数据的话,有类别型的数据的话,我可以在。
那个我们的lightPM里头直接指定说这几个列是。类别型的这几个列是类别型的,所以请用这个okK请你去用。用类别的方式去对这几个列做做相应的处理。那你在叉里头的话,如果是类别型的话。
你可能有可能啊你需要去手动的比如说红色、蓝色紫色这种的字符串,你可能需要手动的去做一个变量的处理或者是一个向量能要这个事情再下的话就是我把数据读进来,然后后面就是就是一个?
面是随机森嘛后下面就是一个一个一个建模我用了同样一套模板啊,我这个地方用了同样一套模板以我只是给一个参数字典大家可以看到这个数啊这个集成集50200500和1000克79的学习率大下山的速度可是05山小05023。
然后它的底下这个东西呢,实际上是一个采样,就是跟刚才大家理解一样,我们会。建每棵树的时候呢,我不会用全量的数据,我可能也不会用全量的这个。特征或者是他会去做一些一些随机的一些处理啊。
所以我这个时候去找一下最优的参数啊,利用我上面写的这个函数,我写的这个函数去找一下最优的参数。对我们就找到了说200克树集成的GBDT的效果是最好的。它的学习率呢是0。05比较慢,对吧?比较慢。
所以呃然后感觉上好像是随机化大一点,效果会更好。所以这个地方有一个采样0。7树的深度并没有太深啊,树的深度只有3。对,然后但F一直比较并不是太高。啊,所以这个地方其实还是和样本的不均衡性有关系。
严格意义上来说,我们要做一些处理。因为因为我看到第一名是做一些处理的,但它处理也没有太并没有大家想象的那么的高级啊,用smote这样的处理方式啊,那个方法其实用的很多啊smote,但是但是。一般情况下。
当你挖的特征足够多的情况下,有时候我们用一些很粗暴的处理,比如说给不同的类别,不同的权重啊,或者是给他不同的这个呃重复的次数等等,这个东西可能就能够对最后的结果有一个不错的这个推动的作用。
所以这就是ch距 boost去做做了一个建模,ch距bo。然后好,来到大家喜欢的这个神经网络了是吧?来到大家喜欢的神经网络了。然后我没有我我我也是用tensor four对吧?因为这是流行的方式。
大家都都爱tenor。当然我知自己也知道像拍 touch这样的。这样的这个呃package呢,可能大家也也喜欢也很喜欢啊,叉G boostos或者是likeGBM的是GBDT的两个pack。
严严格意义上来说,他们不是GBDT的 package,他们是GBMgrading boosting machine啊叫梯度。增强度dinging machineGBM它的一个对这个东西的一个库啊。
一套方法,它不一定是GBDT因为ing进去嘛,决策数嘛,它可能有一些GBRT或者是一些其他的gress等等啊。对,所以所以这个时候大家可以选用任何的深度学习的库啊。
我们说后这个 neural networks你们爱用啊爱用爱用这个tenorflow爱用这些呃car啊,大家想car对吧?对积O然后等等啊,你们这些东西都可以用。
ok或者是tensor floor上面这个tensor layer这个TF bO whatever所以你们都可以用。那我这个地方的话用的是tensor floor。
用tensor floors的速度非常快,不建议大家使用,而且写起来感觉很原生态O好,然后。😊,哎,听说好像微软的库也开源了是吗?不是开源就是CNK是现在也也可以作为是吗?
就是个听说试过以一下听说听说前快的大知道用下实是会下的据说据说度快的但我也只看到我自己没有去做过尝试。
所以感兴趣同学你们可以自己去试一下写写然是简单的那我这个地方我把数据读进有这个地有绩排名啊消费金额图书文中堆下长模型。😊,哎,一定要注意的是,深度学习和你用LR啊。
logistic regression去搭建模型,一定都要注意注意的一个事情是你需要对你的数据去做一个预处理,你千万不要丢给神经网络。某一列的数据幅度范围是0到1,另外一列幅度范围是10万到100万。
这个是很有问题的。这个神经网络会震荡的一塌糊涂,很难收敛。所以请先做一些预处理,比如说最简单的预处理是压点做一个幅度的缩放,最简单的幅度缩放,就是我这个地方选的最大最小值的幅度缩放。
但是大家如果高兴可以用更高级的一些幅度的缩放,对吧?标准化或者是其他的一些cing的方式啊,无所谓,我这个地方用最大最小值sing,我觉得对神经网络能训练下去,这就OK了。
所以这个地方我inpart一下预处理的一些处理啊,幅度缩放这样一个处理。然后我把数据读进来,我我我刚才已经我会用它去做对训练集和测试机去做一个幅度缩放嘛。所以大家可以看到现在这个整齐很多,对吧?
现在整齐非常多,然后它的大小可能都是都是在一个很小的一同差不多的幅度范围内的对吧?所以这个就很棒这个事情。好,然后就到了大家最爱的这个建模的时段了。好,我也很喜欢这这个部分。
所以呢我就来用啊当然大家直接一个一个OP去去搭的话啊,一个一个OP去串起来那样一个的话,其实也是很麻烦的一个事情。所以呃即使是用or投我用了它tri里头的一个一个。😊,啊。
这个应该叫什么叫TF learn嘛?OK啊,里头对,然后然后这个速度会比用的话会稍微好一点啊,就是这个地方TTF的 contribution里头O它会好搭一些。
它搭起来会好搭一些比纯用一个个OB去对起来的这个flow会稍微好搭一点O所以这个地方X点就是说其告诉他有哪些列嘛,对吧?神经网络你需要去指定一下说我的训练题里头用到哪些列嘛,所以这个地方用到这么多列。
大家看到了吧?😊,这个地方之所以我要重新去命名的原因是我发现一个非常非常心塞的事情。当我以中文的名字去命名上面的列名的时候,我用下面这个TF点contcr点 learn去搭建模型的时候,它不认。
你看中文的编码,有可能是当然有可能是我这个地面用python2。7的原因啊,但是反正就是报错了。所以我。很崩溃的把这个列名改成了rank feature01,我也我也得去做translation。
然我就懒得去在中文上去做一个翻译了,我就直接给他一个编号了啊,这个排名好,然后我后面本来想做一个翻译,后来我觉觉得这个事情实在是太麻烦了。为了快,我就给了他一个编号。OK01号特征,02号特征。
03号特征,对吧?然后一直到后面大家可以看到这个地方大概是呃0啊12号特征,对吧?总共有12个啊,后面的这个特征,然后最后是一个。😊,对呃,是最后是一个发放的一个情况,奖学金发放的一个一个情况。
然后下面是测试级的这个colum也一样嘛,对吧?然后这个TF learn呢去使用的时候啊,就是TF con的lear里头去使用的时候,你需要告诉他说我的fishature column是嘛?
就是我的特征的列实际上是哪些?我的这个标准答案的这个列label这个列到底是哪一列?OK所以。我这个地方呢,我从刚才大家已经看到训练数据,我们挑出来那么多列,对吧?
所以我这个地方呢告诉他说我的这个特征可能是前面那些列。对,然后我这个地方的lal,我的Y,我的最后这个标准答案呢,实际上是这个地方的这个助学金,最后那一列,对吧?这是一个这个TF点cos,大家都知道啊。
它是一个。cos啊是呃固定值O然后底下这个是对ature的一个co就是写了一个大家可以看得到这个地际上是一个字典列一个字典生成式字典推导式?
字典推式告诉每个个是和这个从哪里来可以个里出来后面是情非常简单。用即使是用ten样的现在在1。0以后的版本。这个里头这个啊我自己认为啊这个里头的这个这个是比较简单的,用它去所以我要搭一个N吧?
一个深度的DN的一个神经网络所以我告诉他说我有哪些这个你看我告诉他说这是一个连续值的列,是一个连续值的列吧?这个re value所以它是一个连续值的个1连续值的列连续值列我这里头没有类别的列啊。
如果可以去查一下这个里有。😊,一些处理它你指定这一列,它是一个它是一个非实数的一个类别列,它会去做一个相应的处理。可能比如说后面你可以去做一个bedding或其他的一个处理。
这个地的就是这些你要指定一下说这些是特征的列对吧?从从这个学排名开始一直到这个地方的01号特征这个地方的12号特征对吧这是我的特征以搭建这个网络就简单了。
以搭建网络就告诉始化个我要初始一个N个分它的特征列是什么呢?就是这些列啊请刚才的ta数据里头把它取出来好,它的就是中间的隐的节点数我取第一个节点数是12个神经元第二层是2个神经元吧?
我最后的类别是4个类别大家知道就没有奖学金10100学金学金没有助学金10100和2000个我的模型最后到这个地mod这这个。😊,好,这就写完了,太开心了。
然后后面的事情大家都知道这个事情就可以去ge一下了,对吧?它和SK learn一样,所以和看SK learn一样去ge一下。然后你就会看到啊,我这个是在CPU上跑的。
没有GPU但是两个隐藏的节点数并不太多的神经网络在CPU上是可以跑的很顺畅。所以所以其实我跑的很顺畅。这个东西我总共迭代了啊。😊,2万次。对,所以你大概可以看到下面就是迭代的一个过程,一下就会告诉你。
你看这个地方pencil floor对吧?然后它的los是多少,就是它的损失函数嘛,损失的值你看到往下的话,慢慢的会呃其实是有一定程度的下降,有一定程度下降,它它是震荡下降,震荡下降。😊。
所以啊最后就得到了这样的一个模型,然后这个模型你就可以拿去做predt,对吧?大家都很喜欢SK learn。那实际上在这个地方谁但是大家其实你你去看tensor floor。
你会发现tensor floor以头TF点看tribe点。😊,这个learn它实际上和你的什么呀?和你的这个 learn其实非像。所以se learn最大家最喜欢的函数是B和pred对吧?
顶多加一个predt probability就是预测概率对吧?有一个pred下划线啊,PR doPROB对吧?那就是预测这个概率OK哎这个地方有一个predt去做预测,去做预测,所以没有问题。
那这个地方你就可拿到Y的一个值,就预测完了。😊,这就是我给大家写的,从最简单的loggistic regression,一直到大家。这个地方的一个神经网络。OK所以这个思路其实是很清晰啊。
就是建模的一个过程的思路是很清晰的。呃,唯一需要做到的做的处理是。特征。我没有自己去刷这个比赛。我这个比赛是在比赛结束了之后,我用这个数据去给大家写的一个样例。所以我没我没有太多时间去参加比赛。
因为平时带的项目会比较多,所以果大家感兴趣的话,你可以照着这个思路。但是他需要花时间需要花时间,因为在数据的处理那部分,在这个地方特征处理那部分会非常耗时间。
你需要去做大量的相关的一些呃变换的工作要很熟悉ndas这样的对吧?果熟悉这库还好,因为说至少说明这个数据它是CSV的文件或者可以导入成CSV的文件。有时候数据量一大,你可能还得去写一些对吧?
那你经常参加天池的比赛,有时候你得在他平台上去写这个jo对吧?或者是有可能会有有可能会这样的平台,但是我不太确定啊就是大的数据的话,实际上你用这样的数据库是很难很难做的。
以后大家也知道有有data frame,对吧?所以其实他做数据的处理也是非常也是非常方便的,非常方便的一个事情啊。😊,所以啊。OK好,所以呃代码我还没有代码我还没有给这个,回头回头大家跟班主任商量一下。
好吧,然后我先把这个课讲完,所以我我刚才说过了,和这个课程内容相关的东西,大家可以问我其他的相关的东西,大家可以去问班主任,好吧。好,所以大家能看得到我的窗口吗?这是一个第一名的一个分享的。对吧。
大家能够看得到这个窗口,对吧?好,我们来简单的过一下。是这样的。首先呢这个东西写的非常棒。他说我我分析一下这个流程,我做了哪些事情。这是他的一个解析。本次比赛以大学生助学金资助的预测为题。
提供一卡通消费数据,不拉不拉不拉,然后获奖情况,但是这是一个典型的多分类不不平衡分类的问题,对吧?显然这是参加竞赛的老这个老手们,这些同学们说的事情,对吧?所以我有这么多的消费的信息,这个我就不说了。
刚才我已经给大家说了。然后他这个地方用更形象的方式告诉了大家说这个地方的获奖的情况啊,就是没有获得助学金的有86%,对吧?获得1000元的7%,获得1500元的4%。获得。百呃这个2000元的有3%啊。
这个很简单啊,就大家去用pas做一个统计,然后用m power去做一个。顶状图对吧?做一个派图就做出来了,对吧?很简单这个事情。但是它是一个更直观的一个事情了。
你像我有时候会偷懒就不会去做这样一个可视化啊,因为可视化是给其他人看会比较比较简单了,给其他同学看会比较简单。如果是自己的话,你心里有个数大概是什么样的一个数量什么样的一个情况,其实就OK了。好吧。
然后这是他的一个整个一个流程啊,整个流程我可以看到其实还是包含了很多不同的这个环节的,包括这个地方的处理数据啊,模型的训练和预测的结果。好,我们往下一步一步来看。
首先他介绍了他自己是怎么去做这个格式的转换和数据的清洗的格式转换和数据清息,这个很耗时间,大家千万不要过度的沉迷于各种各样的模型。虽然你看到我刚才给大家跑了那个t对吧?所以给大家看了这个代码。但是。😊。
黑色服并不能保证你在比赛当中获得非常好的效果啊,严格意义上来说,你可以看这个比赛的第一名的这个选手,其实没有用,并没有用到深度学习。我我很多比赛的第一名根本就没有用到深度学习。
熟熟知的是大家熟知的那些线性模型和树形模型和其他的些模型去做一些各种各样的整合okK。所以数据转换与数据清洗呢这个地方你看首先呢它它这个地方啊,就是我们用s的话,实际上是可以去做表格表的嘛。
啊它这地方也一样啊,T是学生的IDT是学生IDvalue是所有学生的这个行为记录。所以你可以去做后面的清洗和特征的抽取,他也做了数据的清洗,就是一条重复的条目啊,借阅表的不规整的条目。
我没有去做任何图书馆数据的处理。但是我给大家脑洞一下,有哪些东西可能可以做,但是他们做了,但是他们做了啊,当然一个团队当中有很多同学啊,你知道这个我刚才给大家看到代码是我一个人。就是给大家快速的写完的。
所以那个可能是因为毕竟一个人能力是有限的嘛,所以有有很多很细的工作我没有做。但如果大家是组队一个团队去参加比赛的话,其实应该分工一下。有一些同学啊可能是可以去做一些更精细化的这样一些工作的对。
然后我们来看一看他抽取了什么样的特征。OK他告诉大家特到到了下面这个特征抽取这个部分,对吧?特征抽取这个环节好。然后啊这个就不看了,这个这个这个就是一个呃我们要给告诉大家一下特征抽取非常重要啊。
特征非常重要。所以是怎么样做的呢?你来看看他们是怎么样来做的呢。第一地毯式的特征抽取,对每个表每一个列都要进行特征的抽取,他们给自己定了一个小目标。这个小目标就是说你有这么多的表,有这么多个列。
please每个列都给我抽取出来特征,脑洞一下,想一想,好好的去讨论一下ok所以他们他们去做这样一件事情。然后他们开始多人论做论论证设计飞ature。然后我们来仔细看一下吧。第一轮的时候有200个特征。
这个时候他们排在线上排名128128,其实在第二轮以后,他们觉得特征做不够,开始做特征,哗哗哗哗做500个特征上升到第14了模型我猜并没有太大的变化。因为包括我自己如果去刷一个比赛的话。
如果去参加一个比赛的话,模型基本上一上来我不会用非常弱的模型,我基本上会。😊,用那几个常见的模型,所以模型上的。进步的空间并不会这么大。所以你看200个特征到500个特征直接窜到了14名。
然后第三轮造出来的1151个特征,直接线上排名待在了前三。然后当然他们进行了第四轮了,第四人有1200个特征,后来可能做了一些特征筛选的事情,发现说有些特征并不是太好,所以做了一个相应的一个处理,对吧?
舍弃掉了一部分特征OK然后。😊,我们来看一下,这就是他们的特征啊,一会儿会有更细更精细的特征。所以你会看到真的有很多工作是大家需要仔细的去做做的,花时间去做的。
它并不是一个说我自己认为数据课这这个东西并不是一个我的认识啊,他并不是一个说只有这些所谓的这个高智商的人,或者是特别聪明的人才可以参加的一个比赛。
他反倒他反倒是一个需要耐力和毅力和坚持去才能把这个成绩稳定在前面的一个榜单,或者是做进一步优化的这样的一个事情。所以你看看他做的这个特征。这这边这个图图书的借阅,他他总结了这样一些维度,是否去借书。
借了多少本书,借这个考研编程托福加易雅思不同类型的书的借阅的次数。你看我而且这个东西并没有并我猜并没有像大家想的这么高级啊,他里头有非常多的苦力活在。😊,呃,我就给大家举个例子。
我之前在做天池的一些比赛的时候啊,当然我我我在做那个东西的时候呢,然后有有和一些其他有带其他一些同学一起去刷点比赛。然后他们他们经常要去做一些呃因为合作嘛,大家有些同学可能要去做一些比较偏题力的活。
比如说查日历查一下端午节中秋节,这些节日到底是哪一天,对,这一天去做一个填充,这就是一个查表,但这个工作他做了就有用。看起来很笨,对吧?我我我一点也不高级,你没用高级的模型,也没有用高级的变换,对。
但他对最后结果就是有用。对,所以这个地方是图书借阅。那图我图书馆的门禁啊,你看不同时间段进出图书馆的次数,晚上进出图书馆的次数。对吧进出的总次数,周末进出图书馆的次数,周末嘛,对吧?
那你到底是在图书馆待下出去浪了,对吧?这个很很明显,或大家出宿舍打游戏好,去图书馆的天数。能进宿舍的门禁,不同时间段进出宿舍的次数,每天最早最晚离开宿舍的一个平均时间。平均每月在宿舍的最大天数。对吧。
😡,进每天进出宿舍的次数。周末进出的次数。对吧学生的一个成绩的排名,学成绩的一个排名的一个百分比,学院的各个获奖类别的人数。所以你看到还是很细很细的一些统计特征,对吧?
通常这些统计特征都能发挥非常好的作用。非常好的作用。啊。如果没有大家集体反应很卡的话,那肯定不是我这网络的问题。我这边的带宽是足够的。所以大家检查一下自己那边是不是校园网或者是其他的一些网络,好吧。
这是他们第二轮第二轮做的事情,第二轮做的事情哦,这个事情那那这个就这事情就棒棒的了啊。所以我们来看一下这个事情,所以。啊,不好意思,放太小了。好。😊,呃,是有点okK能看得清吗?这个所以你看你看看。😊。
高手是做了什么样的事情?高手去统计了过完年后的第一笔消费的日期,反应返校的早晚。真脑洞的。每天总消费在0到10元、10元到20元等区间的次数。前十大受欢迎的地点,校园卡在哪里消费地点?
用户去的最多的前十大的地点,用户花钱最多的前十大的地点,单价最高的前10个、50个、100个、200个、300个地点。这个东西不是直接造特征,它是用来做。维度的切分成不同的维度,对吧?
你现在就获取了这么多的地点,你获取了这么多的。获取了这么多的地点,获取了这么多的一些呃啊,这个就是关于地点的,都是关于地点。后面这个是一个1个消费方式的一个维度,包括这个12种消费方式,对吧?对。
包括这个消费的这个种类啊,包括时间维度它也切了很多,24个小时对吧?是否是暑假啊,暑假你到底是在这个留在学校里头去做去去去可能做这个打工还是做一些其他的一些事情。那节假日周末对吧?然后早周午餐时间啊。
用户卡充值后的时0天。刚才同学提到了一个很有意思的问题啊,有同学问到说1000多个特征过拟合了怎么办?我觉得这个问题想的我觉得这个问题大家想的太多了。
这个和我小时候和很多人小时候经常会思考的一个问题一样。就是我去清华还是去北大这个问题,对吧?我我很纠结这个问题到底是清华好还是北大好,但实际上你可能暂时还考虑不到这个问题。你这些特征先做出来再说。😊。
啊,如果你的特征对最后的指弹星都到不了这个强度的话,可能根本就。没有办法去完成拿到一个很好的成绩。所以我们先把特征做出来再说,如果特征不太好特征里头维度非常高,我们去做个特征选择嘛。
大家都知道SKN里头提供了三个方式的特征选择,对吧?😊,对吧单变量的RSE和这个 modelok所以这个地方的话,根据这三个维度去组合出来一些统计的量,一些统计的量啊,计数啊。
最大最小值啊、总额、方差均值啊啊记频次啊,时间间隔啊综位数啊,涉计的天数啊,设计的低点的数量啊,拉一堆。然后我们来看下一页下一页就是更是棒棒的了。下一页。😊,是。😊,构造一些很神奇的特征,很神奇的特征。
据说直接唉这个比赛很很棒的是,你看第一名的成绩真的比第二名高了不少,真的比第二名高了不少。我觉得这个里面很大的很大的。😊,一部分原因取决于对取决于它这个地方的特征构造特征构造。
所以消费总额和技数等指数除以活跃的天数。活跃的天数。是比较活跃的天,就是平均的消费看到了吗?活跃的天数,活跃天数是有记录的天数嘛,对吧?那有些同学他等到总他总共打水打了两2000多次。
就像我刚才说的打了2000多块钱的水,他可能给宿舍打的。😊,OK然后你这个地方活跃你你你总共只花了两只花了那个1000块钱,你只有5天,你5天就花了1000块钱。😡,5天就花了1000块钱,这个和你在。
两天啊你在一个月在里面花1000块钱是很大的不同的,两个月1两个月花花1000块钱是很大不同的。有同学问到这是哪个比赛的第一名?如果大家大嘉比现在刚进来的话,好吧,那可以等等一下这个呃回头录播会放上去。
我们这个视频是有录播的啊,对,可以录播会放上去。所以你可以通过录播,你可以看到,前面我给大家展示的代码和一个背景的交代,而写的很详细。所以你可以查不到这是哪个比赛。
那有同学问到数据数据科学的这个比赛的平台有很多的平台啊,😊,国外的话是天go,国内的话是大家都知道阿里的天池,对吧?那还会会有一些其他的,比如说数据城堡,比如说科赛,那这些公司也会举办一些比赛。
比如说最近的话百度和西安交大有一个比赛,对吧?那比如说这个滴滴每一年都会有一个相应的一个比赛,对吧?啊,这些大型公司他都会有有一些相应的比赛,大家关注一下,其实会有比如说腾讯前段时间有个比赛,对吧?
啊都是这样,所以特征构造这是很重要的一步啊,那这个地方你看他脑洞了很多的特征构造。比如说用户在本学院的一个消费排名乘以成绩的一个排名,对吧?前面是一个导叙,后面是个正据这很脑洞的一些特征啊。
我啊反正我自己觉得我的想象力也是有限的。所以我我去那个所以我我要向这些这些第一名们这些高手们去学习啊,就是他们确实想做很多的思考,去想到了很棒的这样的一些特征。这是最后的重要度一栏。最后的重要度一栏。
你猜一猜看最重要的特征是什么,是是否曾变是否曾更换校园卡。是否曾更换校园卡,想象不到吧。OK这是最重要的。第二重要是每天总消费在0到10元的范围内的次数,除以活跃的天数,一个平均的状况。
然后第三条是每天7点到8点的消费总额除以活跃的天数,你是不是早起,对吧?一般来说我我看到的很多,确实啊这个呃家里头条件不是特别好,这样的一些同学呢,其实还是不管他的成绩怎么样啊,但是呃人还是很制服的。
然后会很勤快,很勤快,所以可能有有很多同学他那个呃就是。早上会早起啊,早上会早起。那有很多同学睡懒觉的同学可能7点到8点根本就没有消费啊,没有消费,对吧?睡懒觉。
这些同学对然后这一个成绩的排名乘以成消费的排名的值啊,这是些组合的特征,一些运算。当然我我说就是这个东西啊,你看到它是用随机森明给出来的来的随机分明给出来。
然后这里面的话统这个这个统统计得到这些高级的这些特征啊,我也没有办法,我也没有一些一个套路说我们这么做他就O这个这个我也是没有办法的,就是这个就只能靠大家去对这个业务理解,对这个场景理解去想。
而且通常情况下一个人很难想的很全,对吧?所以这才是说我们数据这个比赛通常是需要组队去参加,大家有了很多的小伙伴,这些小伙伴大家可以开脑洞一起去讨论去享受,哪个特征可能会有用。然后我们来分一分工。
大家分别去做一些特征,拿过来做一些组合,对吧?以这个事情就变得一个。😊,分工合作集体智慧的一个事情。所以这个事情就非常棒了。好,这个地方我不给大家细讲了。这一页其实大家可以看得到,对吧?
你自己也可以去读,大概是重要度会怎么样。然后通过这一页,你可以很明很明显的感觉到这个这个第一名的这个团队真是太棒了。他的特征实在是做的。😊,做的太太太刻画的这个深度实在是太深了。
OK然后特征的选择的话啊,特征选择它是提了几种方式,一个是通过实验O那你随机分离,你肯定给出来特征的重要度,对吧?排到尾巴上的一些重要度很弱的一些特征,其实你就可以不用考虑它了啊。
那有一些删除的一些准准则啊,重要性重要性肯定是靠前,然后验证的方式是删除特征之后啊,它会在验证集上去重新训练模型,看一下分数是否有变化。这是一个很符合大家直观思考的这样的一个处理方式,对吧?
我把特征删了嘛。我看一下它对我的验证级的结果影响怎么样嘛,对吧?这就是验证的方法,然后预处理啊预处理就是做数据的一个填充。这个刚才我们也就做了对吧?图书借业这个特征没有的话,就填成零啊。
然后11点到2点时间段消费这个这个特征,然后在原始表内没有任何的记录,然后它有可能是系统丢失的,所以这个地方的话,你可以去填充一下,填充一下它填充的是负一啊然后你要去做一些刚才我也做了。😊。
对吧幅度的缩放,它这个地方用的是标准化。我我刚才用的是最大最小化的这个幅度缩放,对吧?对对树形模型实际上是不会有影响的。但是对于这些SVM啊其实影响是比较大的。对它的效率啊准确率都会有影响。对。
后面的话其实预出也包括一些现现采样啊过采样啊,就因为样本不均衡嘛,样本不均衡,所以你是需要去设做一些事情的。然后后面这个分层分层抽样和这个划分的这个交叉验证,其实大家都知道啊。
这个训练集是一个非常不均衡的一个训练集。那你如果直接去切分数据集去做训练集和验证集的话,实际上这个事情是不科学的。我可能把所有的获奖的人所有的这个拿到助学金的人全都切到了一个验证集里头,对吧?
那这个这事就没法做了,所以这个地方我们要用一个东西叫分层抽样啊,他用分层抽样去去抽取。包括我自己做的时候,实这个问题我也没有注意啊,但这是一个需要注意的问题。就是我们在做这个交叉验证的时候。
一定要注意分分层抽样去保证住这个样本本身的一个比例状况。所以他们是。😊,很细致的做了这个事情的OK模型的构造呢,其实这个其实是最没有什么可说的。这个地方大家看到它它这个地方用了嗯用了神经网络。
但用的是一个浅层的神经网络,看到了吧?就是跟我刚才一样,我刚才用了一个两两个隐藏的浅层的神经网络嘛,所以这个地方也一样,所以。😊,用G吧用了个吧用了个啊。
这这个是ET它是用的re random啊在当中有个也用般我我不太用啊,我这个这个法我用的比较少它会根据最后的得分嘛,根据最后得分其实可以有一个大致的一个理解。
说明哪个模型会可靠一点个模型可能相对更不是那么可靠。然后模型的参数条用呢,其实他用的也是可用网格搜索交叉验证嘛。一般我觉得这个贪心坐标下降的话,有可能会到一个就因为它贪婪的这个方式可能会到一个不是。😊。
一个当然有可能啊,所以我个人习惯是用网格搜索交叉验证。所这个地方的网网格话就是刚才大家看到的这个 search对吧? searcharch然后G调呢大家都知道。
经常要调的就是这么些axmax啊最大最最大最小这个啊最小这个节点要求的最小样本数啊等等这样的一些调整啊,这个的话就不细说了模型这块其实我个人感觉是啊如果大家把它当工具来用的话。
它是最没有需要大家去投入特别多的精力去做的,因为无非就是去做一个参数的选择好好做的特征。😊,最后GPDT的一个调参的实力,大概是这是它的一个变化状况了,就是每一棵随一个树棵这个树的棵数变多。
然后它的一个变化的状况,大概是这样的一个状况,对吧?后面就是模型的融合,模型融合。其实说实话这个东西其实就是在啊百分位或者千分位上会有一些提升。后面啊单个算法的一些拓展,它使用不同的特征子集。
不同的预测比例,不同的这个随机种子啊,随随机种子这个东西其实有很多人知道啊,这个我我用一个random state,不同random state,最后它集成的时候是这样集成啊,集成呢也挺复杂的啊。
我但是他的成绩确实比第二名要高很多。就是你能明显的看到他比第二名要高不少。第二名和第三名呢可能就比较接近。所以说明他这个方法确实是挖出来了很有用的信息。所以他用了这么多个GBDT去做一个投票器。
就是GBDT本身就是集成模型,用为他们去做了一个投票器,一个wte class file。ok所以后面还用了其他的extra random,然后一起去再去做一层投票,拿到最后这个结果。
所以他确实做了很多很多的模型的集成的事情啊,然后最后的排名也是确实比第二名分数要高很多ok。呃,好,这个大概就是我今天给大家分享的一个内容。然后呃其实我其实比赛的细节的点啊,大家有机会的话。
完全你自己去跑一遍的话,你就会有很更深刻的理解。我只是给大家去讲述一下这个过程,然后去给大家这个。😊,对,给大家讲述一下这个过程。然后大大家有个概念有个概念啊,这个是一个很多同学的一个共性的理解。
就是说我数据科学这个比赛并不是因为我用了神经网络,我用了非常非常高级的模型去。达到什么样一个程度?而是说我通过对数据本身的处理,我通过对样本本身的一些处理,我通过对特征的非常深刻的一个理解和抽取。
可以拿到很好的一个对原始数据的一个表达。然后我在这个基础上,我用各种模型可能都能取得很不错的一个效果。OK好,所以这个是咱们今天给大家做的一个一个小小的分享。然后这个视频的话应该是会有相应的这个录屏的。
如果同学晚进来了,或者只看到了一部分的话,会对会可以在之后看一下这个回放的视频,好吧,回放的视频。😊,okK好。😊,呃,有同学问到说代码给吗?这个你你们要去问第一名的同学对吧?第一名的同学啊。
这个样本的不均衡呢,其实它这个地方的处理方式是给不同的类别,给了一些给了一些这个。😊,给不同的这个类别去给了不同的权重,给了不同权重啊,代码这个东西其实是这样的。
有一些数据科学比赛呢是一些企业通过这个平台去征求解决方案。所以他最后不一定会把这个呃公开给大家这个代码,对吧?OK好,那我们今天就先给大家讲到这,好吧,先给大家讲到这儿。😊,OK好,然后你们要资料的话。
可以回头跟班主任去商量一下啊,我去跟大班主任去商量一下这个地方其实有很多工作可以去可以去做。好,然后。呃,咱们今天就给大家简单的分享到这吧。如果有问题的话。大家可以之后再交流。
然后欢迎大家在明天和后天继续关注我们的公开课,继续关注我们的公开课。会会有一些会有老师给大家做分享啊,相应的分享,明天是非常棒的一个深度学习的分享。后天呢是啊一个一个。😊,是这个原理性的一个讲解。
也也是很棒的一个相应的一个内容。好吧。OK好好,谢谢大家。咱们今天就先分享到这儿啊,有问题的话,欢欢迎大家多多交流。😊。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
2022-10-23 【公告】布客社区公告 2022.10