七月在线公开课笔记-八-

七月在线公开课笔记（八）

【七月在线】机器学习就业训练营16期 - P5：在线直播：5-机器学习简介、广义线性模型（线性回归、逻辑斯蒂回归）精髓速讲_ev - IT自学网100 - BV1Z9T5ewEKL

OK啊如果没有问题的话。

我们就准备开始，好吧啊，非常高兴啊，能够呃和大家一起啊，从今天开始呢，我们一块把这个机器学习当中的，一些主要的内容利用，咱们差不多一周多的时间，两周的时间呢我们嗯做一个学习和讨论，嗯先做一下自我介绍啊。

我是那个咱们企业在线的那个陈亮呃，在课程群里面呢，我也在啊，如果有什么问题的话呢，包括我还有其他的老师，还有咱们的助教老师都在课程群里面啊，包括咱们课程当中的一些问题。

也欢迎大家在课程群里面能够啊及时的提出来，我们也一块进行一个讨论和学习，那么在今天开始之前呢，先和我们大家介绍这么一个内容，就是关于我们嗯机器学习的若干个模型之，间的一些模型关关联关系。

这个内容呢可能呃和很多很多接触过的同学哈，可能会有一些印象，就是在我们整个机器学习模型的学习过程当中，我们会逐渐的越来越深入的接触，越来越多的模型和算法，那么呃很多的同学啊。

都花了大量的时间在这个方向当中，非常努力地进行学习，但是很遗憾的是哈啊有的时候会出现一个问题，就是当我们学得越多的时候，会发现这些模型和算法啊，有些没有章法和没有逻辑啊，就说我们每天都在学很多新的东西。

但是回过头来一看，好像学了很多，但是好像又没有一个呃能够梳理清楚的脉络呃，我觉得这是非常重要的一个问题，就是当我们在进行学习的时候，会发现啊，特别是到了深度学习领域哈，就是我们再进一步的向后学习。

你会发现整个的工作的方向会非常多呃，工作的一些技巧也很多，那怎么去高效率的把它掌握，我觉得还是很重要的，那么今天呢就先通过一个就是关于模型脉络，图案和大家试图通过这么一种方式。

能够使得大家在今后的学习过程当中，能够把这些模型和脉络啊进行一个梳理啊，当你知道了你在哪个位置上，就是你掌握了哪些模型，然后碰到了一个呃新的工作啊，你不了解的时候，你可以发现啊。

你可以寻找一下你之前的工作，是不是和他有所关联关系，或者说新的工作啊，一定是在之前的工作的基础上，进行了某些方面的改进和提高或者是优化，所以这个时候你会发现你要清楚的知道你在哪，你要到哪儿去。

中间才能把任务进行一个分解啊，这样的话效率可能更高一些啊，举个例子啊，比如说呢我们这啊两周的时间，可能要介绍若干个呃机器学习领域的模型，那么这些模型之间啊，肯定是相互之间是有关联关系的，比如说啊。

以今天我们要介绍的，线性回归和逻辑回归为例啊，啊这两个模型啊解决的是不同的问题，一会儿我们会介绍一个呢线性回归，解决的是我们的回归问题，而我们的逻辑回归呢，解决的是我们的分类问题啊，两个不同的问题。

但是呢这两个模型之间是有一个密切关系的，换句话说啊，我们在线性回归模型的基础上进行相应的改造，就可以直接得到相应的逻辑回归模型，这两个例子啊，或者这两个模型啊啊，更重要的一个作用是为我们后续的工作。

比如说啊在逻辑回归的基础上，我们可以通过横向和纵向啊，把我们的逻辑回归模型进行一个扩展和堆叠，就可以直接得到人工神经网络，而人工神经网络又是我们进入到深度学习领域，的一个非常重要的开始啊。

各种各样的神经网络啊，比如后面的CNRNGEN啊，更复杂的模型，还有的是，那么这些模型呢，都是以人工神经网络作为它的模型基础的啊，来进行改造得到的，而人工神经网络呢又是以基本的逻辑回归。

作为它的基础单元来构建的，从这个角度上去看的话，你会发现再复杂的深度学习模型啊，最终落脚到基础单元当中，也是以逻辑回归为基本单元的，那么再往前回溯，你会发现它就是简单的线性回归模型的改进。

所以从这个角度上去看的话啊，那是今天或者这周需要介绍的这些模型啊，其实都是为了我们今后的工作啊，为了今后更复杂的工作做了一个基础啊，它的重要性可能更多的也体现在这儿，你说这些模型本身能够解决哪些问题吗。

啊当然能够解决一些问题，但是呢它的效果很显然，已经不会像深度学习领域的那么多的模型的，效果好了，但是你不能轻视它啊，重要性就体现在刚才我们所说的，它是后续工作的一个基础啊，嗯特别是在面试的过程当中啊。

我们也在不断的面试一些新的同学啊，一些基础的内容的掌握嗯，很不扎实啊，比如说像逻辑回归这种基础的单元，甚至神经网络的反向回馈，这种这种误差传播嗯，还会有很多问题，所以希望大家能够在这两周的时间当中。

引起足够的重视好吧，这是一方面就是关于这个模型之间啊，还是有些关联关系的啊，这是第一个希望大家能够接受和理解的内容，那么第二部分呢就是通过这个图呢，我们也简单的说明一下，我们这两周的主要的工作好吧。

那么今天呢我们一方面需要完成的是，机器学习原理部分的一个介绍啊，另外呢我们会介绍线性回归和逻辑回归，这两个模型，刚才已经说明了它的重要性，那么在周三啊，我们会介绍决策树模型啊，这三个D3C4。

5和cut数，可能会包括一点boosting啊，这个看时间上的一个安排啊，这两个工作哈，这两个工作数模型和集成模型会直接退到出差，g boost啊，这个可能同学们或多或少的有了解是吧，在现在的这个啊。

特别是各种各样的比赛当中，他就boss模型啊，是应用非常广泛的模型之一啊，它解决回归问题和分类问题，都取得了非常好的效果啊，但是呢你会发现往前倒他的前序工作啊，其实还是有很多啊，我我看到过很多同学啊。

这个啊在xg boss的画画了很多的工作啊，但是搞得一头雾水，为什么，就是因为他的前序工作没搞明白啊，数模型还不清楚怎么回事，什么是数模型，数模型怎么去定义是吧，它的核心到底是什么啊。

然后boosting方法是怎么能够，在基础模型的基础上进行性能的提升，然后才是BDT的问题，然后才是GBDT的问题，才是梯度，才是梯度提升的问题，你是在函数空间还是在参数空间里面，学习的问题。

这些一系列的前序工作，如果你还有问题的话，嗯对超级boss的学习呃，困难会很大啊，所以说上这也说明了刚才我们所说的学习呢，你需要有一个过程啊，你需要有一个积累的过程，特别是有章法啊。

你不能什么都这个一把抓，那个效率还是比较低的，但是这是这两部分啊，这是关于这个数模型，那么呃第三次课呢，我们会集中介绍这个所谓的支持向量机啊，这个也非常重要啊，这个重要性呢我就不做的，不做过多的介绍了。

然后呢后面会讲到这个hmm和cf啊，这两个概率图模型呃，这是我们这两周的主要内容的介绍，那么嗯这些内容哈会逐渐的感觉是越来越复杂，当然这个复杂并不体现在模型本身有多么复杂，因为相对于深度学习部分的模型。

这些模型还都属于基础模型，它的复杂性主要体现在，可能呃学习的坡度比较高，因为一开始啊同学们可能不太能够呃，就是之前没有一些基础内容，可能对这些内容呢这个接触起来会有些困难啊，这个很正常。

也给大家提前说明一下啊，你也不能寄希望通过两周的时间就把这么，这可能是啊，几十年甚至更早时期的一些专家们，总结出来的经验，你通过两周都掌握，这也不现实，那么怎么办，那就只能是不断的啊。

根据我们这两周的内容啊，呃课前最好是能有能够有一个预习，然后呢课上呢能够跟得上，课下如果有问题及时的在我们课程群里提出来，我们一块来通过我们的其他老师，还有助教老师一块我们一块讨论和学习，呃。

这些内容呢也不完整，就是即使是这张PPT里面的内容，也只是一个大体的框架图啊，它也并不完整，如果还有同学希望更系统的啊。

更全面地进行一个学习和掌握呢，那么下面呢给大家有一个这个就是参考资料，也作为我们这两周的主要内容的参考资料，做一个介绍，那么上面这三本书都是中文啊，都是中文内容啊，可能对同学来说也比较。

这个就是嗯可能认识的比较多了是吧啊，中间这本书啊是李航老师的统计学习方法，统计学习方法啊，它也是让我们这两周课程的主要参考材料啊，嗯当然我们没有办法把这两门通过这两周哈。

把这一门书里面的内容全部介绍清楚，但是主干内容还是比较完整的啊，这本书的一个特点呢，就是公式推导部分还是比较详细和完备的啊，嗯非常不错的一本书，那么另外一本书呢可能更这个呃，更被大家知道哈。

是我们这个周志华老师的机器学习啊，就是西瓜书啊，俗称西瓜书，那么这本书的一个特点呢，就是覆盖面比较广一些啊，覆盖面广一些，这两本书啊，是现在作为我们同学们可以入门的时候。

可以作为参考的两本非常重要的教材，当然根据各个不同情况啊，这个有的同学说这个都要看吧，最好是都看啊，当然这个没什么可说的，但是如果说你时间和精力有限，那选择其中的一本也可以，如果从现在这个时间点呢。

嗯没有好坏和优劣之分啊，就是你选一本都可以啊，看个人情况，如果说非要这个选一下的话呢，李航老师的这本书呢就是呃怎么说，每一个模型介绍的推导过程都非常的详尽啊，呃深度也还好。

呃周老师的这本呢就是广度很不错啊，覆盖到了方方面面啊，讲的也非常详细啊，所以还是那句话吧，这两本书反正都很不错，第三本书呢是那个邱吉鹏老师的这个，神经网络与深度学习啊。

当然这本书的重点就不再是机器学习部分，而是我们在这个深度学习部分啊，作为一个这个原理性涵盖非常广的一本教材啊，他在里面讲到了从深度学习神经网络，就是人工神经网络开始逐步的介绍到CNRN啊。

这个以及后续的一些改进啊，每一个模型的这个原理部分，公式推导都非常的详尽啊，这本书也是非常不错的，特别是有志于啊在这个方向当中，继续深入学习的同学啊，这本书还是非常推荐的，那么剩下的四本书啊。

这个都是呃老外写的啊，在这个之前哈，不像现在咱们的中文材料也非常丰富了是吧，之前我们上学的时候没有中文材料，就全都是老外的书，那只能是硬啃，比如这本哈可能大家也非常熟悉啊，PRML是吧。

MLAPP以及这个EIESL啊，这是我们就是嗯以前所说的三大金刚了啊，这个你反正是每一本书都得啃一下啊，这个作为入门，当然现在不需要了，有兴趣的同学可以作为一个参考啊，扩展啊扩展啊，这个多说两句话啊。

刚才忘提醒了，就是关于这个统计学习方法一定要注意啊，这本书出了两版，第一版和第二版，一定要注意哈，就是一定要买第二版啊，一定要买第二版，第二版在第一版的基础上，补充了大量的这个无监督学习的模型啊。

为什么想起这个来了，就日本这个ESL也是出了第二版了啊，也是出了第二版了，所以说如果有有兴趣的同学，一定要买最新版啊，啊最后一本书呢这个花书啊，这个也不用再做过多介绍了，这本书也是神经。

就是深度学习部分关于神经网络的一些介绍啊，作为一个怎么说，就是如果上面这三本都都OK了，没问题啊，那么下面这四本呢。

作为一个继续深入学习的一些推荐教材，也给大家推荐，那么以上呢就是关于就是呃我们这两周吧。

一个基本的一个安排。

以及做了一个几推荐的教材的一个介绍啊。

看看这部分还有什么问题吗，嗯好西瓜书根本看不懂这个呃还好吧。

嗯这个对看不懂是有原因的，为什么一会儿我们正好也会借此机会啊。

和大家有一个介绍，如果没有什么问题的话，我们就继续好吧，刚才有个同学啊，直击问题的要害，看不懂为什么看不懂，总是有原因的是吧，原因在哪儿啊，当然并不一定就是和你的原因是相同啊，但是在这么长的时间当中呢。

我们也不断的和同学们进行沟通和交流，总是有原因的，那我们去看看可能会有哪些原因，造成了我们这个看不懂的问题好了，我们就顺着我们的内容啊，就第一部分内容，就是关于机器学习的基础介绍啊。

包括我们的一些术语的使用啊，这是非常重要的一个内容，为什么这么说，我相信啊，可能刚才那个同学说看不懂的一个原因之一，可能就是一些术语的理解不理解不掌握啊，不仅仅包括咱们初学的同学哈。

甚至很多号称是已经嗯，号称是已经在这个方向工作多少年的同学，有一些专业术语的使用都不准确，有同学会较真啊，不准确就不准确呗，能干活不就完了吗，当然这没问题啊，但问题在于你不光是需要自己干活。

还需要和你同组里的同学进行交流和沟通，甚至你还需要发不发paper是吧，如果积分我我我不发paper是吧，我就自己干活，你是不是还需要给你的领导汇报工作，在这个过程当中，你一定要怎么说呢。

对你的工作可能很理解，但问题是你需要准确的把你的工作介绍给别人，那么这个时候就牵扯到另外一个问题，就是刚才所说的属于使用的问题啊，你如果对你的工作本身的这种术语的理解，不能够和大家达成共识。

就很让人困惑，那反过来你看别人的工作也会出现类似的问题，看了一页书都是中文啊，好像每一个汉字都认识，连在一块儿，不知道他在说什么，其中一个很重要的原因，就是这些专业术语或者或者名词的使用。

可能理解的不是那么的透彻，或就压根就没理解，就划水过去了啊，这可能是一个很重要的原因，不只是这个原因，那么另外更重要的原因呢，还不是这些术语的使用，更重要的原因是一些数学符号的使用啊。

我相信大家可能或多或少的都是一些体会，我们这个方向的工作啊，说明一个问题，最直接的办法还是看公式是吧，你把问你把公式一写啊，大家都或多或少的知道你在说什么，或者你在表达什么。

但问题就在于这些数学符号的使用嗯，能不能标准或者规范的使用，也是一个很大的麻烦，当然这不怪同学啊，或者不怪我们怪谁呢，怪那帮嗯做数学的工作的同学啊，他们在符号的使用过程当中就比较随意。

学数学的同学嘛对吧，大家都知道这个想法有很多啊，比较的灵动啊，所以他们不太愿意出一些约束啊，所以说体现在这个符号的使用上，就会发现诶，他和呃他和其他人的符号可能就不一样了对吧。

或者大家使用的符号或多或少都有区别，那这个时候你就需要明确一下，在当前你的语境当中，你所使用的数学符号是怎么规定的嗯，怎么体现出来，就是刚才那些书里面，回到刚才那个话题哈，就是你为什么看书看不懂啊。

我有一个问题就在于你看这本书的时候，有没有注意过，你看没看过这本书的符号表啊，这个问题可能也就只有你自己知道了是吧，看过就是看过，没看过就是没看过，有同学说符号表什么是符号表对，如果你还有这个问题。

我觉得你相信啊，你后面的困惑一定会越来越多啊，符号表就说明了当前这本书当前这篇论文是吧，当天当前这份资料，它的使用的符号的一个说明啊，啊比如说举个例子啊，向量啊，我们在后面的这个模型学习的过程当中。

会大量的使用到向量矩阵，甚至后面深度学习里面我们会使用到张量，高维的张量，那么这个时候就出现问题了啊，形状的定义啊，数据结构的形状定义是行优先还是列优先啊，有人说这个不都是行优先吗，谁规定的是吧。

有些教材里面它就列优先，你怎么办啊，你说这个他不说吗，人家有的时候就不说，或者说的时候说的符号表里面，那个时候你看了吗对吧，所以这一系列的问题造成了你说有些东西啊，特别是我们结合着我们本身上实事求是讲。

这个方向本身的工作还是有些困难的，或者有一些难度的啊，所以造成了大家的学习上有些嗯嗯有些问题，所以也就是啊这个结合这些问题，我们一块来这个进一步的来进行梳理和学习，好吧，啰嗦这么多哈。

我们看一下这个具体内容，结合这些具体内容啊，你再理解一下好吧，第一部分关于基础基本术语的使用，那首先第一个问题就是关于机器学习，什么是机器学习，当然没有一个明确的定义啊，这不是个定义。

只是一个描述性的说明，那么我们理解机器学习呢，它首先是利用经验，通过计算构建模型来改善系统自身的性能，首先说一下什么是经验，一般在机器学习领域，我们一提到经验，它指的就是数据啊，经验这个数据。

比如说啊呃我们基于经验的学习，其实直接一点就是基于数据的学习，为什么，因为所有的经验都体现在你的数据上，当然这些数据一方面可能是机器学，机器本身生成的数据，也可能是人为生成的数据啊，但是不管怎么样。

我们认为这些数据当中包含了我们要学习的，所谓的经验的内容啊，这是关于经验的问题，通过计算这个就没什么可说的了啊，通过计算机的计算，那么这个计算是怎么来完成的，一定是通过模型来完成的啊。

这里的模型就是我们今后工作的一个重点，就是我们的工作，就是在数据上构建模型来完成计算，那问题是这个模型的具体形式啊，一会儿我们会给出来啊，就是在我们语境当中，什么是模型的问题啊，啊不同的语境哈。

或者不同背景的专家，对模型的使用是不一样的啊，比如经济学里面也有模型是吧，很显然那个模型和我们的模型就不太一样啊，啊这个地方一定要搞清楚具体的表示形式，那么最后构建模型进行计算结果是什么。

结果是要改善系统的性能，那什么是系统的性能，在我们这个地方，所谓的机器学习里面的性能讲的就是预测啊，我们一定要解决的是，我们对未知的趋势的一个分析和结论啊，就是预测预判啊，这种对未知结果的一个计算。

那么这个时候一定要把机器学习的问题，和我们一些数据分析的问题区别进行对待，为什么这么说呢，因为嗯很多的时候的工作哈，我们进入公司以后，很多的数据分析的工作，都是一些描述性的分析啊，就这些数据是什么啊。

比如在均值方差是吧等等，类似的仅仅是举例，因为这种工作解决的是数据是什么的问题，我觉得这堆数到底是什么样的，我们大体的通过描述性的分析得到一定的结论，但是这不是机器学习所要解决的核心问题。

机器学习的核心问题是基于现有的数据，我构建这个模型，一定要是对未来进行一个判断啊，比如说我根据这一堆数据啊，这堆数据是一个比如说最简单的例子啊，天气预报是吧，我们根据已有的数据，天气预报的数值信息。

怎么样得到明天天气情况的一个描述对吧，比如说在商业里面，我们根据历史的这种销售，销售数据能不能构建一个模型，得到未来两个月对吧，一段时间当中我在销售的一个规模的描述啊，对未来是怎么样。

我们得到一个预期的一个判断，这是我们的核心的工作，好吧嗯不要把我们自己的工作搞得怎么说呢，就是呃显得那么的啊，本来我们是个有技术含量的工作，搞着搞着搞成和别人一样了，我觉得那意义就不大了是吧，好了。

这是再回过头来看一下啊，所谓的机器学习，你今后一定要知道，首先你得有数据是吧，这些数据里面是我们的学习对象，然后呢通过计算啊，现在我们的计算一般都是分布式的是吧，分布式计算机在扔到集群里面。

那么这个计算过程一定是基于模型的，我们需要构建各种各样的模型啊，这个后面随着学习的不断的深入，大家掌握的模型会越来越多，那这个时候呢通过数据构建模型进行计算，得到的。

得到的是关于未来或者未知情况的一个描述啊，这才是我们最核心的价值的体现，那么下面一个术语呢或者一组术语呢，是所谓的属性或者叫特征，他描述的是事物在特定方面的表现，或性质的事项，哎这就出现问题了。

你看啊这一句话都这这这一句话组成的，这这这个语句啊，每一个汉字我相信大家都都认识啊，甚至都好像都理解，但是你会发现走到一块儿，他在说什么，就莫名其妙是吧，什么叫描述事物在特定方面的表现或者性质的。

还实现了呢啊，这个地方就需要看一个例子哈，刚才我们在前面已经讲到过了，关于数据的问题，就是我们一定是先有数据后有模型是吧，你一定是先根据数据构建相应的模型，得到对未来的一个分析结果。

那这个数据怎么体现出来，具体的数据的表示形式，往往往往啊我们的数据到我们的工作实际当中，就是一张表格啊，当然大概率是这样啊，并不一定百分之百是这样，还有一些非结构化数据，都是一些就不是结构化吗。

就我们一般把这种二维表格，认为是结构化数据啊，带着结构横行横着是行竖是列是吧啊，表格啊，表格数据，那么这个表格数据呢，嗯拿到以后我们就有个问题，就是这个表格数据是怎么组织起来的啊。

我不知道大家有没有这个这个印象，就是你拿到一个表格里面，你怎么去看这个表格数据啊，内容很多很丰富啊，比如说哈我们现在手头上是一张学生表啊，C6那个表在这张表里面很显然有一横行。

我们把它称之为什么这个表头表头，什么叫表头，表头当中标明了当前这个表格当中，所有的属性啊，所有的属性，比如说举个例子啊，当前这张学生表里面有姓名，性别年龄身高体重各科成绩，那么这样的话表述里面的每一步。

每一步每一部分，比如说啊首先是什么，首先是学号是吧，首先是学号ID，然后呢姓名name呃，性别，然后身高啊，体重啊，各科成绩等等等等，有了这个表头作为一个规范化的数据结构以后。

我们再根据表头的信息向里面进行填充，比如说学号零幺，姓名是张三呃，性别是男啊，身高是1米8零，体重是100kg对吧，各科成绩语文二十一八十一，数学90啊，这个外语70啊等等等等吧，今年是举例子。

那么这个时候就有个问题了，那回头来看一下，看一下什么属性，刚才已经说了，属性是描述事物在特定方面的表现，或性质的事项，结合着刚才那张student表，你会发现这里的属性就是描述的事物，描述的是什么。

描述的学生在特定某些方面的表现，比如说我的姓姓名啊，比如说我的性别，比如说我的学号，比如说我的各科成绩，在某些特定方面的表现的一些事项，这被称之为是属性啊，这被称之为是属性。

那么属性呢就有它所对应的值称之为是属性值，比如说就像刚才那个例子里面，比如姓名这个属性啊，性别这个性别这个呃，这个姓名这个属性他就可以取张三是吧，这个属性值是张三，那么同样比如说再举一个例子。

还有个同学学号是零二李四同学啊，性别是女，然后呢这个身高体重各科成绩等等等等，那么很显然有一个属性啊，有一个属性就有对应的，当前这个属性的可能的取值，比如说性别这个属性就有男女是吧等等等等。

其他同学的这个这个性别属性，身高体重也是等等等等，各科成绩也是等等等等，所以说哈属性描述的就是事物在特定方面啊，一个属性描述一个事物的一个特性是吧，表现或者性质的一个事项属性。

每个属性都有属这个属性当前对应的一个取值，那么下面一个下面一个术语啊，被称之为是属性空间或者叫做输入空间，这是什么意思呢，看一下它的描述，属性的所有可能取值所构成的集合啊。

啊属性的所有可能取值所构成的集合，这个呢以我们性别属性哈为例，以性别这个属性为例啊，我们这个性别呢，一般情况下我们就是取男和女这么两个值啊，取男和女这两个值，那么由男和女这两个值构成的一个集合。

就构成了当前性别这个属性啊，它的属性空间啊，它只能取这两个值啊，这两个值就构成这个集合，就构成了当前性别这个属性的输入空间，那么再举个例子啊，比如说我们的这个学号啊，学号因为我们可以看到刚才那是个序号。

编号是从零一开始编的是吧，0102等等等等，比如说当前我们这个班级一共是60名同学，那么最后一名同学的学号是60啊，六零，那这个时候你会发现我们可以通过0102，一张六零啊。

这60个取值所组成的一个集合，构成了学号这个属性的输入空间啊，输入空间，那么同样啊，比如说你这个姓名啊，这个身高体重啊，各科成绩啊，也都可以通过他的取值的不同，来构成不同的输入空间啊。

或者叫做属性空间好吧，那么以上哈以上三个部分啊，是我们今天见到的非常重要的一组这个术语，属性简单点讲啊，属性简单点讲就是一张二维表格当中，以表图里面的每一个字段都对应一个属性。

那么每一个属性都会有一个属性上的取值啊，每一个属性都会有一个值，那么由每一个属性上，所有可能的取值构成的集合，我们把它称之为是输入集合好吧，那么有了属性这个名词以后。

我们继续往下另外一个我们把它称之为记录啊，我们把它称之为记录，是要记录呢，也被称之为样本或者叫实例，就是一个具体事物的属性描述，有属性向量来表示啊，有属性向量来表示什么意思呢，就像刚才啊我们可以看到。

当我们在学生这张表里面用来记录一位同学啊，比如说张三这位同学，你会发现张三这位同学的表，里面的信息还是相当充分的，相当丰富的是吧，包括张三这个同学的学号，姓名性别身高体重各科成绩都包含了，需要注意的是。

这么丰富的信息标识的是张三这个同学的啊，一种一种状态，一种特性是吧，那么看下面一个李四同学，那么李四同学又有李四同学的学号，姓名性别身高体重各科成绩，所以你会发现，当我们描述一个具体的事物的时候。

有组成具体或者组成当前这个事物的，若干个属性，构成了当前这一个事物对吧，当前这个同学就是由它所对应的学号，姓名性别啊，身高体重，各科成绩所组成的，那么这所有的这些信息对应的就是这一名同学。

所以说你会发现一个具体事物的属性描述，它是由属性向量来表示的，我们知道标量和标量和向量的一个区别是吧，标量是只有一个值，而向量向量是由一组值所组成的，那么就像刚才我们看到比如说XG他代表的哈。

他代表的就是张三那个同学啊，张三那个同学，张三这个同学有哪些信息啊，有他的学号，我们用X1G还有什么姓名X2G年龄，身高体重各科成绩依次向下向下排列啊，向下排列用上标来加以表示啊。

一就被定义为是对应的是序号二，对第二个特征哦，第二个属性对应的就是他的姓名，第三个X3对应的就是他的性别，X4就是他的年龄，身高等等等等，依次向下排啊，有多少个属性，你这个地方N就取多少好吧。

那这个时候你会发现，当我们构建出这个向量以后，也就表示了当前这个张三同学的所有的信息，在16段的表里面，所有的信息都已经表示出来了，所以说哈你拿到的数据，其中一个信息或者一个实体啊。

它是由若干个属性所组成的啊，那么这若干个属性组成一个向量，用来表示当前这个实体啊，而注意我们细节上刚才是一个内容的表述啊，我们的这个符号细节，这就是刚才我们所说的，你怎么样把你的这个符号。

和我们刚才所描述的这些信息对应起来，一般情况下我们的向量用黑体的X来表示啊，黑体的这个英文字符来表示，它用以和标量加以区别，刚才我们说过，标量是只有就是单个数值组成的量啊。

我们一般也是用这种正常的这种啊，正常的这种这种这种呃这个表示，那么向量我们是用黑体的小写字母来表示啊，当你看到小写黑体的时候，OK这是一个向量啊，当你看到普通的字母的时候啊，这就是个标量好吧。

然后呢我们一般用下标来表示当前的呃，这个记录是哪一个啊，就像刚才啊啊比如说这个地方，我们按照刚才我们的编号啊，零幺同学，零二同学，那这个X1对应的就是零一同学，X2对应的就是零，就是零二同学啊。

通过下标来表示你是哪个同学，然后呢把这个向量展开以后，我们这个向量由若干个维度所组成是吧，它的第一个维度对应的就是这个表里面的，第一个属性，第二个维度对应的就是第二个属性，依次向下类推，所以你会发现。

当我们看到比如说这个地方XIG的时候，它说明的是什么，它说明的是student表里面编号为G点，那个同学他的第二个属性啊，这是整个XIG的信息的一个解释啊，同样XNG它所说明的是什么。

他所说明的是编号为G的，那个同学的第N个属性啊，第N个属性，那这样的话从X一G1直到SNG，就组成了当前的这个同学，他所有的信息啊，由这些所有的信息组成的一个向量来表示，当前这个同学好。

那么下面有他马上就会有疑问，有什么疑问呢，哎这个这个地方怎么还带着一个，带着一个小T啊，这个时候我们线性代数告诉我们啊，线性代数大家都应该接触过是吧，线性代数告诉我们，这个地方这个T的含义是什么。

转置啊，向量的转置为什么这么说呢，因为我们知道哈向量分行向量和列向量是吧，什么是行向量，哎，这就是哎不对，不能这么说，X11X22X一二点点X1N啊，这样写的话就是一个明显的行向量是行向量。

除了行向量呢，我们还有列向量的形式，就是你把所有的线维度把它竖着排列啊，称之为列向量，那么在记住哈，在我们机器学习领域啊，在我们机器学习领域，大概率你看到的所有的向量都应该是列向量啊，都应该是这样好吧。

记住哈，这是第一步，或者说这第一句都应该是列向量是没问题的，但是呢如果你每一个向量都写成列向量的形式，你会发现它太占地方，因为列向量要竖着写啊，一页纸里边写不了几行就写满了啊，那这个时候怎么办。

往往我们会把这个列向量，往往我们会把这个竖着的这个列向量，写成行向量加转置的形式，写成行向量加转置的形式，就把它拧一下，从行从竖着的，竖着的列拧成行，但是很显然他俩就不相等了，怎么样才能让他俩相等呢。

再加上一个转置，所以说啊，你会发现你看到的这一条数学表达式啊，数学表达式它的含义就是我们刚才所说的，这是一个向量啊，这是我们机器学习里面，用来表示某一个事物，或者某一个记录的一个向量。

这个向量它它就是一个列向量啊，它就应该是个列向量，只不过呢列向量不方便，所以我们才把它表示成行向量加转置的形式，所以说啊你在看大量的材料的里面看到的，但凡是行行向量，一般它的右上角都会加上一个转置符啊。

转置符把它转制成一个列向量来加以运算，有的同学说诶，我看到的资料里面好像就没有这个转制，这也是不排除的一种情况，所以才像刚才我们所强调的，你一定要看一下他这本教材里面怎么规定的啊，大概率是列向量。

但是不排除会有一些作者啊，我就用行向量也无所谓啊，那这个时候你需要看一下它具体的符号的使用，为什么要强调这个，因为后面我们要做向量和向量的计算，向量和矩阵的计算，矩阵和矩阵的计算，矩阵和张量的计算。

以及张量和张量值的计算，这个时候你会发现它的计算逻辑，是和它的形状有密切关系的对吧，这个时候你需要非常仔细的或者非常清楚的，知道当前你的数据结构是什么样的，如果你不清楚，你需要确认啊。

非常准确的去确认它到底是什么，这个不能一点不能含糊，否则就会出现刚才有些同学的那种情况，什么情况看不懂，好像看懂了诶，嘿应该没问题，但是呢脑子里面就是一团浆糊啊，这很这很正常，首先这很正常。

为什么原因就就基本上会出现在这里好吧，当然这仅仅是举例啊，仅仅是举一个例子啊，你需要把那个符号表里面的每一个符号，都核对一下，核实一下，看一下是不是和你理解的那个那个那个符号，是一样的啊，和你一样的。

当然就没问题了，那还有和你不一样的呢，你需要时时刻刻提醒自己啊，再举一个例子，那本那个西瓜书，西瓜书李航老师，那不是那个那个周志华老师那本西瓜书，你看一下它的行向量和列向量的定义，就非常的有意思。

它的行向量没问题哈，行向量是用逗号加以区隔的啊，负分割的啊，它的列向量不是几，它的列向量不是在行向量的基础上加转置，它的列向量是通过分号分割，就它在形式上你一看还是一行，但是呢它中间是用分号分割的啊。

它是用分号分割来表示列向量，但是呢他又用行向量的形式，但是人家在符号表里面说的很清楚啊，我就是这样做，你能怎么着对吧，所以说这就造成了很多的时候，在后面进行各种各样的计算的时候，就全乱套了啊。

这个提醒一下大家好吧好了，回到我们这个内容当中来啊，那么这个时候一定要注意啊，XG对应的是我们student表里面的一个实体啊，或者一条记录啊，一条记录，那我们继续往下，那么继续往下呃。

当有了属性和记录这两个概念以后，当有了属性和记录这两个概念以后，下面有个问题啊，问下大家嗯，属性和记录都是我们二维表格当中的一部分，对吧，都是我们二维表格当中的一部分，那么下面有个问题。

就是这个属性在二维表格当中，对应的是行还是列啊，记录这个术语，在二维表格当中对应的是行还是列啊，这个能分清楚吗，就属性在二维表格里面，你怎么去找他，记录你的二维表格里面怎么去找他啊。

这个我相信大家应该能够分清楚是吧。

大家有什么问题吗，属性是列对，没问题啊，属性是列，当然相对应的记录就是什么记录就是行是吧，记录就是行横行竖列对，所以说啊这个一定要脑子里边很清楚啊，这个你如果不清楚，这个就比较麻烦，你们刚才说行向量。

行列向量的数据结构没有区别。

肯定是有区别的啊，这个你后面做内积计算，行向量和列向量转置还是不转职，肯定是不一样的，对吧好了。

我们再继续往下继续往下，下面一个术语叫做标记，标记，标记描述的是事物某个特性或结果的事项啊。

又是莫名其妙的一句话，但是呢对应表格里面就比较容易理解了，再举一个例子啊，还是刚才的student的表，当前这个表里面呢有一列，非常非常特殊的一列啊，非常特殊的一列，这一列呢就是描述了。

当前这个同学是否是三好学生，是否是三好学生这么一列啊，当然比如举个例子，我们用零来表示否，一来表示是啊，零是否是一是四等等等等，那么这个时候这一列数据啊就非常有意义，为什么非常有意义呢。

它起到了一个决定性的作用，什么决定性的作用，看一下，就是他描述了事物的某个特性或结果的事项，对吧，是个结论性的，就当前这个同学是不是三个学生啊，是我就用一来表示，不是我就用来零来表示。

那么这啊这一类所谓的这个数据呢，我们一般把它称之为标记，标记，取到一起到决定性结论的数据，我们一般把它称之为标记，那么其实是标记，就对应的是标题上的一个取值啊，标记上的一个取值。

就像刚才我们所定义的是吧，是否是三好学生这一列啊，这个标记列我们就可以取值为零，或者是取值为一啊，用零和一不同的取值来表示它是否是三好学生，不同的含义，那么这个时候呢类似的啊，就像我们的属性空间一样。

类似的，我们就得到所谓的什么标记空间，标记空间或者叫做输出空间，所谓的标记空间，就是标记当中所有取值的集合啊，周取值所构成的集合称之为是标记空间，比如说就像刚才这个我们说到过的，我们是否是三好学生。

这个A列数据我们就可以取零和一啊，那这个时候由零一所构成的一个集合，就是所谓的标记空间啊，或者叫做输出空间，那么这个时候啊回了回来，我们看一下，作为一张表格哈，我们逻辑上啊。

我们逻辑上可以考这种分法对吧，第一种分法，那我们就可以通过刚才我们所说的，前面这一部分，就是记录了由若干个属性所组成的，属性的一个序列啊，属性的一个序列来表示，当序列当中取值以后。

用来表示一个一个的什么记录，那么另外一个另外一些刚才所说的，非常特殊的数据呢，我们把它称之为是标记标记序列标记，那么这是一种通过我们的这个纵向的视角啊，从纵向的视角上可以把数据这样来分。

那么横向的视角上呢，刚才也可以怎么分呢，就是刚才我们说过有什么有表头，表头记录的是属性是吧，表头上记录的是属性，然后呢横行啊，除了表头之外，一行行一行行，对应的就是一条一条的什么记录是吧。

一条一条一条的记录，所以说这张二维表格你一定要非常的清楚，你手头上这一定是基础数据啊，就是在数据上来构建模型啊，所以这张表格上也是非常要清楚的。

那么当我们有了标记以后啊，当我们有了标记以后，我们就可以进一步的把我们的数据啊，进一步的把我们的数据进行扩充，那么组成所谓的样例啊，组成所谓的样例就是拥有了对应标记的记录啊，拥有了对应标记的记录。

有记录标记对来进行表示，什么叫标记对啊，就是由一条记录以及这条记录所对应的标记，构成了一个所谓的样例，那么它在形式上可以这样来写，就是把刚才我们的记录，黑体的XG和这条记录所对应的标记Y。

组成一个所谓的记录标记对啊，我们把它称之为是一个什么样例，把它称之为样例。

其实哈标记哈也是我们二维表格当中的一列啊，标记也是我们二维表格当中的一列，只不过这一列呢它起到了一个结论性的作用啊，所以呢我们把它单独拿出来啊，把它单独拿出来构成所谓的记录标记，对呃，为什么要这样做。

其实刚才已经说明了哈，就是因为前面的这一部分数据。

或者前面这部分的信息，前面的这一部分的属性决定了我的标记啊。

就像刚才说的，比如说01号的张三同学，男身高体重各科成绩来，发现他是不是一个三好学生，02号的李四同学女对吧，身高体重各科成绩哎，她是个下游学生，再往下03号的张三，李四王五同学男身高体重，各科成绩唉。

他也是个三好学生，你会发现由我们的这种所谓的记录和标记，所组成的这个记录标记对，就有了一个所谓的你可以认为是一个对应关系，通过输入相应的数据，我就可以得到它是不是三好学生的一个结论，这就是所谓的规律性。

这也就是我们试图通过模型，试图通过模型在我们已知的数据集上进行计算，所得到的对未来的一个预测，比如说今天啊我们班新学期开学，新转来了一个同学啊，新转来了一个同学叫什么名字呢，比如说他是61号啊。

这是学号，新名叫什么呢，张三李四王五陈六吧，好吧啊陈六，然后呢，他是个男同学啊，身高体重各科成绩哎，这个时候呢我不知道他是不是三好学生，但是我可以通过我们历史上已经拿到了。

这张学生表里面关于同学们的这些基础信息，以及这些基础信息所对应的这个标记，三好学生的这个结论我就可以构建一个模型，当这个模型在数据里面已经完成学习以后，再有一个新的同学来了，输入他的姓名。

身高年龄体重各科成绩是吧，我就可以得到他在学期末是三好学生呢，还是不是三好学生的一个大概率的一个结果啊，这是最朴素的一种想法，至于这个模型怎么构建，我们有很多种方法来完成啊。

今天我们会介绍线性回归就可以做这个工作，是吧啊，逻辑回归也可以做这个工作，是不是，所以说啊，这就是我们为什么要把数据本身要分析的，这么清楚的，目的，就在于你今后的工作，就是在这二维表格上来完成工作啊。

你对数据不了解，我很难去理解。

你怎么对你的模型有深入的理解啊，那么更进一步的注意这些具体符号的使用。

黑体的XG对应的是一条记录，它是由若干个属性所组成的啊，每一个属性的取值，在当前记录上都是非常准确的，它是一个列向量，然后呢由记录和标记组成的样例，完成了记录和标记的对应关系啊。

那么这个时候随着下标的不断的变化，这从12345，一直到大N组成了你的数据集合，注意哈，这是一条记录啊，注意这是一条记录，当你写成这样的时候，这就是一个数据集合是吧，这个就是一组数据。

一组数据就是一张二维表格了是吧，所以啊这个希望大家能够理解，那么继续往下下面一个数据呢，就是所谓的数据集，数据集，当我们拿到的数据集是记录的集合的时候，什么是记录啊，只有只有样本啊。

只有我们的这个属性集合的时候，我们把它称之为是无监督的学习数据集啊，无监督的学习数据集，对应的，当我们拿到的是样本或者是样例的集合，的时候啊，样例的集合的时候，我们拿到我们称拿到的数据集。

为有监督的数据集啊，你什么是有监督，什么是无监督，这个监督怎么体现，体现的就是带不带标记啊，带不带这个标记，带着这个标记啊，你就有一个对应关系，那么这就是所谓的有监督的，那么不带这个标记啊。

不带这个标记，那这个时候你就是一个啊只有属性部分，那被称之为是无监督的啊，这是非常重要的两个概念啊，就是有的时候会问你啊，这个模型是个有监督的模型，还是无监督的模型啊，其实他问的不是这个模型本身。

而是问的是这个模型基于的数据是什么样的啊，呃如果你说这个模型使用的数据是样例数据，那很显然就是一个有监督的模型，如果当前的模型使用的是记录数据，那它使用它就是一个无限度的模型。

好吧，那么如果是有监督的模型啊，如果是有监督的模型，就是他带着带着带着标记啊，带着标记，我们进一步的根据这个有监督的数据集里面，标记的不同的取值，进一步的进行划分，比如说比如说如果我们的标记啊。

在有监督的学习当中，如果我们的标记为连续值，什么叫连续值啊，就是我们的这个标记啊是个连续值，举个例子，比如说我们拿到的是一个天气预报啊，天气预报的记录对吧啊，有各种精度数据，纬度数据是吧，还有海拔数据。

各种各样的气象指标，唉得到当前这个区域，它明天的一个气温32度啊，平均气温32度，哎你像这种值就是所谓的连续值，为什么这个位置上可能是32度，可能比如说呃这个济南是吧，32度，可能北京啊就是27度啊。

这个上海可能就是25度，你看这种数值是连续值，我们把它称之为回归问题啊，回归问题在连续值上的回归问题，那么相对应的啊，相对应的刚才那张学生表里面的标记，它只有两个取值，分别是三好学生和不是三好学生。

你像这种离散取值对吧，他离散值的时候，我们把它称之为是分类问题啊，分类问题，那么在分类问题当中啊，进一步的进一步的，我们根据分类问题的这个类别的多少，把问题进一步的分为，二分类问题和多分类问题啊。

就像刚才那个三好学生，那个就是一个典型的二分类问题，是不是的问题是吧，是三好学生还是不是三好学生，就两个类别，二分类问题，那么还有什么多分类问题，多分类问题，比如说我我们的这个学科成绩啊。

除了可以是连续值之外，我们有的时候还有什么优良中差是吧，这种时候就是一个多分类问题啊，优良中差你是在哪个区间里面啊，这是一个多分类的问题嗯，那么再往下呢还是关于数据呢啊这个就对，了解一下就可以了。

往往我们可以进一步的把数据进行，这样的划分啊，就是所谓的训练集，验证集和测试集，所谓的训练集呢就是用来训练的数据集，用来训练模型的时候的数据集，我们把它称之为是训练集，那么还有对应的呢称之为测试机啊。

测试机，那么就是在有了模型以后啊，有了模型以后，我要对当前这个模型加以测试的时候，使用的数据集称之为是测试机啊，称之为测试集，举一个例子啊，不太合适，但是呢这个仅仅是举例吧。

就是比如说这个呃我们在构建模型的时候，是构建模型的时候，我们有基础数据来完成模型的训练和构建，那么这个时候构建完成以后，我需要判断一下当前这个模型性能好不好啊，性能好不好。

如果当前我还用训练的时候的那些数据集，很显然就不太合适了啊对吧，因为我就是在这堆书里面学出来的啊，对于当前这个数据集一定是非常好的一个模型，但问题在于唉，他在测试集上的表现才是我们最关心的。

所以这个时候你会发现，往往我们的训练数据集和测试数据集，不是同一个数据集啊，这两个数据集分的是非常清楚的，训练集就是训练集啊，训练完了以后再用测试及做测试，这样才比较公正是吧。

这样的结论才比较比较比较可信是吧，你不能说哎我再训练几章，训练完了再再测试测试吧，这个意义不大啊，这个意义不大，一会儿我们会讲，讲的话是非常一个非常关键的问题啊，非常关键的问题，那么这两个集合啊。

训练集和测试集，但是呢哎中间还差了一个叫做验证集，验证集，什么叫验证机呢，它是在模型的训练过程当中，未来为了选择所谓的最优参数，来使用的一个集合，数据集合嗯，一会哈会讲到这个模型参数的问题啊。

模型参数选择是个非常非常重要的内容，那么你选择好的模型参数，你这个模型可能性能上就很好啊，嗯差的模型参数，这个模型就很差，所以呢往往我们会单独的再拿出一部分数据，来去寻找那个所谓的最优参数啊。

这个时候的数据集就被称之为是验证数据集，但是呢说明一点啊，这是一般理想情况，但是这个验证集呢，这个以两我们的数据集往往又很有限啊。

数据集本身量就很小，那么你想刚才我们所说的。

你一共就60来个同学是吧，一共就60来个同学，我们拿出40个同学做训练，20个同学做测试就已经很不错了，已经很难哈，再拿出再拿出数据来做验证啊，这就很困难了，所以说啊这40个同学就也做训练，也做验证啊。

这个问题倒不是特别大啊，问题倒不是特别大，只要你能够严格的把训练过程和测试过程分开。

就OK了啊，所以说啊这种情况呢是一种呃。

经常呢我们可以看到你的数据集，分成训练几个测试集就OK了，验证集呢往往以默认啊就是训练集，我们这一做验证就可以了。

好了，以上以上这一部分就是关于基础术语的部分，看看大家有什么问题吗。

有人说属性为行应该也可以吧，可以这个事情肯定是可以的，但是呢你要这样用呢，你必须要加以说明，这是你的义务，因为大家都不这样用，好吧啊对啊。

标签上就是标题就是标签啊。

没问题，咱们继续哈，前面这些术语部分回去好好的再理解理解。

那么下面就是关于假设空间与参数空间的问题，这是个好问题啊，首先我们看一下啊，回到我们刚才讲到过有监督的学习，就是在于我们要学习，一个从输入空间到输出空间的映射，什么叫输入空间和输出空间的映射。

输入空间刚才我们讲讲到过啊，输入空间就是我们所有属性的集合啊，所有属性集合的所有取值的可能，这被称之为是输入空间，还是回到刚才那个表格里面对吧，每一个属性它都有它的取值可能。

那么每一个属性的取值可能和其他属性的取值，可能就可以进行多个的排列组合，那么这些所有的排列组合的，所有可能情况构成的空间或者构成的一个集合，就被称之为输入空间，同理输出空间呢。

就是刚才我们所说的那个标记或者标签啊，标签也是一个各种可能取值都可能取到的一个，空间，那么这个空间呢我们把它称之为是输出空间，刚才我们说到过啊，模型的一个最核心的作用就是。

当你在输入空间里面作为输入值以后，要找到它所对应的输出空间的值，就像刚才我们所说的，转学来一个新同学是吧，转学了一个新同学，他的学号也有姓名也好，也有这个身高体重，各科成绩都有，我现在把它输入进来以后。

需要判断一下他是不是一个所谓的三好学生，那不就是从输入空间向输出空间的一个，什么映射啊，这就是机器学习最本质的一个含义啊，就学习啊，什么叫学习啊，学习本质上就是一个映射，就是你给我输入。

我向输出的一个映射过程啊，这就是所谓的映射或者叫学习，那么除了这种方式呢，我们还可以通过所谓的概率分布的方式，这个不太好理解啊，大家需要回忆一下，我们上高数的时候讲到过这个概率论。

是概率论里面讲到过条件概率分布，条件概率分布说的是什么含义，条件概率分布，说的是两个随机变量之间的关系是吧，两个随机变量，两个随机变量，一个随机变量是X，另外一个随机变量是Y，条件概率分布。

说的是当随机变量X已知的条件之下，随机变量Y的概率分布的问题，那么这被称之为是条件概率，那么很显然是因为X被确定了，Y才能取不同的值的概率啊，这就是条件概率，那这个时候他和我们刚才所说的邮件。

这个学习的关系在哪呢，就像刚才我们所说的，这里的X就是我们的输入空间里面的取值啊，你你你你把你的这个呃新同学的各科成绩是吧，年龄身高体重，各科成绩都输入进来，确定以后。

我去判断一下他是三好学生的概率是多少，他不是三好学生的概率是多少，用来确定他当天到底是不是三好学生，你会发现条件概率给出的并不是一个确定的，当前的一个确定性结论啊，就是说你你这个陈丽同学是吧。

嗯各科成绩输进来以后，我得到的是他随机变量Y是个变量啊，它可以取两种不同的值对吧，它的输出空间是零幺取值啊，既可以是零，也可以是一，那么它的概率是多少，我才得到的是，当前陈六同学不是三好学生的概率。

10%，对应的它是三好学的概率是90%，那我问你，他到底是不是三好学生，你应该回答的是，他的90%的概率上是三好学生，但是同样他在10%的概率上不是三好学生，这个是用条件概率分布来表示的。

所谓的有监督的学习，今后啊这两种形式我们大概率都会碰到，就是我们都会见到这两种方式，哪种方式啊，第一种方式就是直接从输入空间，向输出空间的一个映射，那么另外一种形式呢，就是从输入空间已知的条件之下。

得到的是输出值的一个条件概率分布啊，这两种形式呢都是我们后面构建模型时候，需要使用到的，那么对应的相对应的根据两种不同的形式呢，我们可以得到另外两种所谓的模型的形式，第一种形式称之为是决策函数啊。

决策函数决策函数呢也被称之为非概率模型啊，它和我们的条件概率分布是一个对应关系，角色函数，什么叫角色函数，角色函数就是从输入空间花X到输出空间，花外的一个映射啊，就是个映射，你给我一个X，我给你个Y。

你给我一个学生的信息啊，学号姓名性别年龄，身高体重，各科成绩，我就可以得到他当前这个学生，是不是他的学生啊，就是通过一个映射来完成的，就是个函数，那么这个时候我们把哎，但是需要注意啊这个这个概念哈。

希望大家能够理解，画X是一个一个的XX1X二X三点点，一个XN花Y呢是一堆的YY1Y二，这点一直一直到YN，我们这个映射，F就是从花X向花外进行的一个映射，我相信啊这一点是没有问题的啊。

我相信这一点是大家都能够理解的，问题在哪，问题在于，这个从花X向花外的这个映射并不唯一啊，这个我可能会对有些同学就是产生一些困惑，但是我觉得这个也好理解，就是你拿到了一堆X以及它所对应的一堆Y。

我们知道从X向Y是有关系的，所以我需要构建一个模型F，来完成从X向Y的映射规则映射关系，但是呢这个能够从X向Y的映射，满足这个从X到Y的映射并不是唯一的，也就是说有若干个FF1F二点。

一点点都可以完成从X向Y的映射，再举一个例子，比如说你要从北京到上海啊，这是你要从完成的，从输入的是北京到的是上海，但是你会发现你从北京到上海有多种方式，你可以坐高铁，你可以坐飞机，实在不行。

你还可开车，再实在不行，你骑个自行车也能到，当然就是费点时间，但是你会发现，这若干个F都是能够从完成X向Y的映射，那么这个时候看下面由这些啊，由这些能够完成从X向Y的映射的，这一系列的F啊。

这一系列的F我们刚才所说过，每一个F都能完成从X向Y的映射，那么有若干个F，你说这I若干个F又构成了一个集合，又构成了一个集合，花F这个花F称之为是假设空间，也称之为是函数空间。

一般情况下我们这样来表示，那么就是所谓的假设空间的含义啊，假设空间的含义，其中X是定义在输入空间X上的变量，X属于画X，Y是定义在输出空间花外上的变量，Y是属于Y。

他们能够完成的是从X通过映射F得到Y啊，这么一个条件之下，所有的这样的F构成的集合，被定义为花F集合嘛，就是由元素组成的，每一个F都能完成从X向Y的映射啊，好了，现在哈梳理一下，到目前为止。

我们手头上有几个空间了，三个空间分别称之为输入空间X，输出空间Y以及函数空间或者模型空间F，它们三者之间的关系是输入空间X啊，到输出空间外就是一个映射关系，而能够完成从输入空间X向输出空间外映射的。

这个映射有若干个F1F2，那这些若干个能够完成从X向Y映射的，这些模型，就构成了所谓的模型空间，模型空间，那好了，我问一下大家，那你想想在此基础上，你今后的目标是什么，如果说我能够从北京到上海。

有多条方式进行选择的话对吧，多个方多个模型都能完成从X向Y的映射。

那你觉得你登录了是什么，你的工作是不是就应该在若干个F里面，找一个所谓的最优的F，最优的F。

我把它称为F星，这就是你的工作，你要在这一堆F里面，这一堆能够从X向Y的映射里面找到一个F星，你说这还用找吗，你从北京到上海，你当然坐飞机了，那可不一定啊是吧，看你的这个看你的这个目标是什么。

比如说你要快对吧，你刚才有同学说我要坐飞机，是因为坐飞机最快时间上最节省，但是相应的比较贵，所以说我的目标是什么，我的目标是嗯省钱，那这个时候你你可以这么考虑一下，你比如说你可以做嗯更经济的方式对吧。

有人说我要找一个性价比最高的一个方式，唉这个时候你会发现，只要你定义好了规则或者定义好了你的目标，或者定义好你的策略，那剩下的问题就是在在这一堆可选项里面，找一个符合你的那个策略的最优解。

如果你的策略就是最快，那很显然你找到那个方法就是坐飞机哎，如果你要找到的是那个最经济，那你好好想一下什么样的方式更加的经济，如果说你要性价比最高对吧，既要快还要省钱。

那这个时候你看看哪种方式能够达到这个目标，所以说你会发现啊，通过这三个空间哈，通过这三个空间其实就可以概括一下哈，我们在有监督的学习过程当中，的主要工作和目标就是一堆X1堆Y。

在这一堆F里面找到一个你的策略上最优的解，同样同样刚才我们说的是这个决策函数的形式，但是呢实际工作当中啊，嗯不那么的理想，为什么不那么理想呢，回到刚才我们的这个模型空间里面，来这一堆F哈。

这一堆F我们决定当前F的不是F本身啊，一般情况下不是F本身，而是由一堆的参数来决定，举个例子啊，比如说我们知道平面，直角坐标系里面的一条直线，二维平面啊，我们用二维平面来表示Y等于ax加B啊。

这是我们知道二维平面里面的任意一条直线，但是你会发现当呃决定当前这条直线的，是由它的斜率和截距来表示的是吧，我们二维平面里面的一条直线，这是斜率对吧，这是截距，所以你会发现确定当前直线的是斜率和截距。

这两个参数，你给我一个斜率，给我一个截距，我就能确定一条直线，同样换一下这个斜率和截距，我又得到另外一条直线，所以说这个F1F2点点，这不干个F决定这些F的是它的所对应的参数。

这个参数我们一般用C它来表示啊，这里面的A1B1对吧，A 2b2 a 3b3，一直到aw bw啊，这么一堆参数，你会发现现在我们引入一个新的空间，叫做参数空间，就是所有的参数可能的取值问题就转化成了。

我们要完成从X向Y的映射的最优函数寻找，而最优函数的寻找呢，又退化成了在最优参数的一个寻找过程，你会发现刚才一条直线它就用ab来决定，这还是直线方程是吧，如果你是个抛物线的三个参数是吧。

所以你更高次更高次的曲线，它的参数越来越多，所以说呢我们一般情况下是在，看这里嗯，嗯我们的假设空间化，F通常是由一个参数向量来决定的，函数足什么叫参数向量所组成的函数组合，在这个地方F呢一般加下标啊。

一般我们的参数用W或者THEA来表示啊，W和CA来表示，就是说这一系列的函数啊，这系列的函数是由它所对应的参数来决定的啊，就像刚才Y等于ax加B它是由ab来决定的，AB的不同取值。

决定了当前这个函数的不同的形态，当前函数不同的形态，完成了从X向Y的不同的映射，决定了当前这个性能的好和坏，所以呢这个时候我们的参数向量用了W表示，这个时候是W11得到WN，细心的同学。

你会发现它和我们X的维度是对应的。

注意到了吗，我们刚才讲到过X在哪来着。

X在这看到了X1X2，一个XN，一般情况下我们会对会为每一个参数啊，会为每一个属性给它一个对应的参数啊，这里是X1属性1X2属性二，遇到XN属性N那么它对应的就是W，W一W二D2。2，一直到WN。

这是我们的参数向量，参数向量我们用黑体的W来表示参数向量。

注意这个地方也加转置啊，所有的向量都是列向量。

那么同样同样刚才我们介绍的是函数形式啊。

是它的函数形式也叫做非概率模型，那么下面的非函数形式也就是概率模型呢，同样的刚才已经介绍了，假设我们的空间花F啊，也可以定义为条件概率分布啊，定义为条件概率分布，就像刚才我们所说的，通过我们的条件。

概率分布在已知随机变量X的条件之下，随机变量Y的取值概率也是我们的集合，也是我们的集合，我们知道这样的概率分布也不唯一啊，这样的概率分布就像我们的函数一样，也不是唯一的，所以由若干个满足条件概率分布的。

这个分布来组成的一个分布集合，我们把它称之为设假设空间画F啊，逻辑上是一样的，只不过在形式上不再是用函数形式，而是用的是条件概率分布的形式，那么其中X是定义在输入空间画X上的，随机变量。

Y是定义在输出空间花外上的随机变量啊，他用的是条件概率分布来表示我们的模型，那么同样的我们的假设空间化F呢，通常也是由一个参数向量来决定的，概率分布也是由参数向量来表示的，那么这个时候也类似。

我们已经不再直接找的是我们推荐概率分布。

而是在参数空间里面找到最优参数，把最优参数带入到我们的推荐概率分布里面，来来完成从X向Y的映射。

嗯这些内容啊。

这个也是非常重要的啊，也是非常重要的，为什么这么说呢，这和后面我们要讲到xg boss的时候会有关系啊，今天我们会讲到两个模型，线性回归和这个逻辑回归，都是按照我们现在的这套逻辑啊。

都是按照我们现在这一套逻辑先构建一个模型，这个模型呢不唯一从参数空间里面，找到最优参数带回到模型里面来，得到从X向Y的映射啊，这是我们最常用的一个套路，但是呢不要忘了啊，但是不要忘了我们的参数空间啊。

我们的参数空间不是必须的啊，不是必须的，一旦我们能够构建出一个不带参数的模型啊，不带参数的模型，我们可以直接在模型空间里面加以学习啊，在模型空间里面加以学习呃，讲到这个xg boss的时候。

你的体会会越来越深刻好吧，但是这个地方留留这么一个留这么一个念想啊，知道从哪儿啊，这个问题是从哪导出来的。

就是从我们第一堂课导出来的好吧，看这一部分有什么问题吗。

找到最优的那个F，就是假设空间当中的一个是啊。

刚才我们说过啊，我们的假设空间啊，就是所有满足从X向Y的映射里面的F，你找的一定是在这个画F里面去找啊，只不过这个F1不唯一，所以你就不知道哪一个F可能最好，这个时候通过你的策略定义啊。

通过你定个定个规则是吧，按照这个规则我去找就可以了啊，就像刚才我们所说的，你从北京到上海啊，有有好几种方法可以到哪种方法最好啊，你自己心里定个标准，按照这个标准去找就可以了啊。

这就是我们的这个一般的一个一个，一个一个一个逻辑。

那下面那下面马上就回到刚才那个问题，那怎么定义一个所谓的好的策略是吧，什么什么样的策略才是好的策略，不同的视角或者不同的定义会得到不同的结论，那这个时候有没有一个呃可参考的一些内容呢。

有就是所谓的损失函数啊，就是所谓的损失函数，什么叫损失函数呢，损失函数是用来度量模型预测错误程度的函数，注意哈注意损失函数是用来度量模型，预测错误程度的函数，被称之为是损失函数，它是用来度量错误程度的。

也就是说你的错误越多，函数值越大，你可以简单的这么理解对吧，错误越多，损失函数越大，相应的你的错误越少，损失函数的值就越小啊，它是模型预测输出，模型的预测输出FXF是映射吗，是预测吗。

是预测输出和实际输出Y的非负实值函数，大于等于零，回复时值啊，非负实值函数大于等于零，用L来表示loss损失啊，loss损失用L来表示，注意这里的损失函数，你需要知道它的模型预测值。

FX以及模型的以及它所对应的实际值，由这两个值我就可以计算出当前的损失的大小，那什么叫模型的预测值，就像我们的天气预报，比如说我们预测啊今天是多少号啊，今天30号啊，呃昨天29号的时候。

这个气象台发布预测啊，啊明天30号，比如说气温30度，这是它的预测值，但是呢到了30号以后，我是不是可以实际测量一下今天的气温啊，发现今天的实际气温是31度，举个例子，那么很显然。

我的预测值30度和我的实际值31度之间，是不相等的，那这个时候就存在了或者产生了什么损失，那这个时候，当我把30预测值和31，实际值输入的L之后，就得到了一个当前的损失的大小的描述。

那这个时候有同学会问诶，这个损失是多少呢，你需要根据具体的L的定义来计算得到，来看一下有多种的损失函数定义方式，最简单的一种啊，最简单的一种称之为是零幺损失，什么叫零幺损失啊。

零幺损失看一下他是这么来定义的，当我的预测值FX和实际值不相等的时候啊，一旦我预测的不对，我就认为产生了损失，并且损失值是一啊，损失值是一，那么相对应的，如果我的预测值和我的实际值相等啊。

意味着我预测对了，那这个时候我认为就没有产生损失，我的损失值是零啊，这被称之为是零幺损失，按照零幺损失啊，按照零幺损失，你会发现刚才那个例子也正好啊，这个可以进行损失计算了是吧，实际值是30多嗯。

预测值是30度，实际值是31度，不相等不相等，意味着怎么样产生了损失，零幺损失呢就被复制为一啊，如果我预测对了，就没有损失吧，零幺损失就为零啊，这被称之为零幺损失。

零幺损失呢是不是很显然是一个呃分段函数，你需要进行一个判断啊，这个时候呢往往我们也采用了，采用这种所谓的指示函数的形式，I哈I称之为指示函数啊，指示函数它是这样来定义的啊。

当括号里面的条件成立的时候返回一啊，当条括号里面的条件成立的时候，Y不等于FX的时候，它返回一，否则返回零，所以说啊，通过指示函数，也表示了损失函数的一种定义形式啊，这个只是形式上的一点不同而已。

最核心的还是领养损失的一个概念。

好吧，有同学有问题吗，看看嗯。

好问题啊，有这个问题有这个后面我们再说到哪了，这是零幺损失，那么零幺损失啊有个问题，有没有同学发现了零幺损失的问题，零幺损失啥问题，零幺损失只记录了有没有损失，比如说还有天气预报，太大了嗯。

怎么去理解这个太大，还是天气预报啊，还是天气预报，这个比如说我天气预报预测这个三明天啊，明天31号我预测哈，因为下雨啊，明天的气温是15度啊，我的预测是15度，但是呢我这个预测就错了，等明天到了31号。

他根本就没下雨，还是艳阳高照啊，还是31度，那按照零幺损失啊，你会发现我预测的是15度，但是呢实际值还是31度不相等，按照零幺损失，那返回的就是一对吧，返回的就是一，那么只有到什么时候啊。

只有到我的预测值和实际值相等，完全相等的时候，我才认为是没有损失，所以说啊你会发现零幺损失只度量了，有没有损失啊，有不相等，那就是有损失，相等了就是没损失，他只度量了有没有损失。

并没有度量损失的什么程度是吧，你会发现30和31号两天的预报，很显然都都错了哈，严格一点说都预测错误了啊，一个是预测30度，实际是31度啊，另外一个呢预测是15度，实际温度也是31度，但是很明显的是。

第一天的这个预测虽然预测错了，但是它仅预测错了一度对吧，一摄氏度，而后面这个预测了预测16℃，很显然这两天的预测的程度是不一样的，所以说啊零幺损失呢，仅啊仅仅是预测了有没有啊，并没有预测程度是什么样的。

那怎么办，看下面最常用的一种方式，称之为平方损失，他那就很好了，他做的是Y和FX啊，预测输出和实际输出之间的那个差值啊，这个差值呢再加上一个平方，把它变成非负的啊，变成非负的，那么很显然按照平方损失。

我们就可以得到一个很好的度量，为什么呢，就像刚才我们还有那两个例子，30度减去30啊，31度减30度，只有一度，一平方还是一，但是你会发现31度减去15度，再平方那个程度是不是就更大了。

所以说啊平方损失既度量了有没有损失，也度量了损失的大小，或者叫做损失的程度啊，啊这是平方损失，也是最常用的一种损失，还有其他的其他损失函数啊，比如说绝对值损失，绝对值损失也很容易理解是吧。

Y减FX取绝对值就可以了啊，但是呢我们知道这个这个这个嗯绝对值函数哈，它不太好的一点在于他连续，但是不是处处可导的啊，在这个在这个地方不可导，所以它的数学性质上呢就不如这个平方损失啊，处处连续。

处处可导，这个东西就就比较比较好用是吧，对付自然函数啊，后面我们讲到这个嗯这种概率分布的时候，就条件概率分布模型的时候我们再介绍好吧，就这样你会发现哎这就是刚才我们所说的，你的这个损失函数。

损失函数有多种定义形式，你取不同的定义形式，得到的所谓的最优模型可能就会不一样啊，这个就是怎么去定义你的损失函数的问题啊，啊这个也非常的有技巧啊，特别是到了深度学习领域，你定义不同的损失函数啊。

得到的那个模型就是一个新的模型啊。

这种论文也很多啊，这种论文也很多，啊不一定啊，这和数据标签的离散成这个是没关系的啊，它仅仅是记录了损失与损失的大小，所以说函数和惩罚函数的区别是什么啊，你现在啊包括什么损失函数，目标函数。

惩罚函数这些东西你可以认为是一样的，就OK了啊，不要在现阶段也分不这么细啊，当然会有严格上的区别，但是呢呃你现在认为是一样的就OK了啊，包括什么目标函数，损失函数。

惩罚函数对吧，继续往下哈，继续往下好了，有了这一堆损失函数以后啊，有了这一堆损失函数以后，看下面，损失函数，损失函数是能够度量一个数据，它的损失问题是我们拿到的可是数据集啊，我们拿到的数据集是吧。

那这个数据集上的损失怎么来定义啊，就是刚才你会发现，刚才我们的损失函数，仅仅度量的是一次预测是吧，一次预测损失有没有损失的大小的问题，那这个时候你拿到的可是数据集，数据集里面是有一堆的数。

那这个时候怎么来定义呢，看下面当我们拿到数据以D啊，当我们拿到数据D，它的由它是由X1Y1X二Y2XNYN啊，这若干个样例啊所组成的，那这个时候我们要计算它的什么平均损失啊，计算它的平均损失。

数据集上的平均损失，数据集上的平均损失就是把LYI和FXI啊，就是把每一个元素啊，数据集里面的每一个元素，分别带入到我们的损失函数里面去，来计算它的损失值，然后呢把这损失值进行一个累加啊，进行累加。

然后再除以我们的元素的个数，得到的就是所谓的平均损失啊，平均损失，那好了，当我们有了平均损失以后啊，这个平均损失啊，也被称之为是经验风险或者这个经验损失啊，还记得什么是经验了吗，我对他有印象吗。

什么是经验，经验就是数据是吧，经验损失就是数据损失，就是我们的数据集里面，通过我们定义的损失函数，来计算出来的平均损失啊，这就是经验损失或者经验风险，那么好，这个式子啊。

你可以看到你还是需要对符号零理解啊，这是一个元素的损失，然后进行累加求和，得到的是所有数据集上所有元素的损失，然后再除以N啊，除以元素个数得到的就是数据集上的平均损失，我们用REMPF来表示啊。

那下面有个问题啊，那下面有个问题，那这个时候你怎么去选择最优的F，损失放在这了，损失给你了，你怎么选择这个最UF，这个左右F看下面那个式子，这个式子说的是什么，这个式子说的是我所谓的最优F就是F星啊。

最优的那个F1定是在经验风险上最小的，那个F是最优的F啊，这个这个数学表达式啊，这个数学表达式说的就是这么个意思，你这定义的是经验风险，我要找的是最UF，这个最优F1定是在经验风险上取得。

最小的那个F作为我最优的F，大家想想这个是不是很自然的一个策略，你不是有损失吗，你不是有实际输出和预测输出的不同吗，我要这个不同，或者让这个损失尽可能的小，尽可能的小的。

这个F是不是就可以作为我的GOF，理想情况下我仅仅说的是理想情况下，理想情况下，就是这个所谓的每一个数据上的这个损失，都等于多少，都等于零，累加之后呢还等于零，当然求平均值后也是零。

那意味着我的经验损失就是零值，那这个时候你会发现哎我让所有的损失都是零，那这个F是不是意味着所有的输入和输出，输入和输出，输入和输出我都很好的，X号位，我通过这个F型都完成了一一的一个映射。

或者说一一的一个对应，这不是一种理想情况吗，当然这太理想了是吧，那么我们知道实际情况下这个都等于零，就就就太太苛求了，但是我只要让他怎么样，让它尽可能的小，所有的损失都尽可能的小。

那这个时候我们得到这个F星，一般也不会差到哪去是吧。

零是极端情况。

或者说理想情况是这个时候最好的模型啊，最好的模型就是使我们的经验，风险最小的那个模型啊。

这是我们的一种理想情况，好了，我们知道啊。

往往这个理想很很丰满，现实很骨感是吧。

如果我们按照这个经验风险最小的这个策略，来去找这个F星啊，会出问题，什么问题呢，看下面三张图哈，这个图非常重要啊，这个图非常重要，他解释了一个很重要的现象，叫做过拟合欠拟合的现象，什么问题呢。

看这个图啊，你今天一定要把这个图这这这这这三个图啊，把它搞明白，看第一个图啊，第一个图说的是这么回事，怎么回事呢，你能看到啊，首先我们首先有一条曲线，正弦曲线啊，正弦曲线，然后呢还有一些若干个数据点。

还有若干个数据点，那么你会发现这若干个数据点，在大体上是符合正弦曲线规律的对吧，先上升后下降，再上升，大体上是符合正弦曲线数据规律的，但是呢他又不是严格的，按照正弦曲线来生成的数据，为什么，是。

因为这些数据是在正弦曲线的规则上进行采样，但是采样的过程当中，因为种种原因啊，比如说你的误差，比如说你的采样错误，比如说你的采样精度等等等等，各种各样的原因，你得到的一些数据点是不精确的，不准确的。

甚至是错误的，比如说可能会出现某些样本点跑到这来，这都是很有可能的啊，这是我们实际数据的基本情况啊，就是说我知道我的数据规律是正弦曲线，但是我在采样过程当中往往会出现踩不准啊。

不是往往你你就绝对是踩不准啊，这没跑啊，没得跑，所以说你会发现啊，第一幅图说的是什么，第一幅图说的就是，我在正弦曲线的基础上进行数据采样，踩到了若干个样本点啊，踩到了若干个样本点，换句话说。

我知道这些样本点就是按照正弦曲线的规律，来进行采集的，但是因为各种各样的原因，我踩不准啊，这是我们实际的数据情况好了，在当前这种情况下，如果我们再按照刚才所说的损失啊，所说的经验损失最小化的这个策略。

去找我们最优的F，你看看会出现什么情况，看这个左上角这低幅错，这幅图你自己看看说明的是什么意思啊，说明一下，你会发现正弦曲线还在按照正弦曲线去找的，那些数据还在这条红色的线，是我们构建的模型。

构建的模型，这个模型是F等于零，F等于零，有时就会有困惑，F等于零或者FX等于零啊。

都可以，我问一下同学们，FX等于零是不是个模型，别吵闹竞猜。

FX等于零是个模型是吧，有没有不同意见，有的人就会很困惑，FX等于零怎么是个模型呢。

嗯嗯我们前面刚才讲过，模型就是个映射是吧，你给我X，我给你一个输出就OK了，但是很显然当前这个映射呢把所有的X，你不管你输入什么X，我都把它映射到哪去了，都把它映射到零那去了。

很显然有同学说这个这个模型太不准了，这个模型怎么能这样做呢，但是准不准是一回事，但是你不妨碍人家也是个模型，所以你会发现啊，你来看这就是那条红线，这条红线就是那个FX等于零，就是他把你所有的输入啊。

他把你所有的输入都映射到零里面去了，当然我们知道这个模型的预测，预测的性能很差，因为我们知道我们所有的数据都是正弦曲线，它是一个非线性的，你用一条平坦的FX等于零，性能当然很差，这是左上角。

OK我知道了，我们变化一下，比如说我们令FX等于ax加B，ax加B，很显然，ax加B对应的是我们平面，这个平面直角坐标系里面的任意一条直线，任意一条直线对吧，它是直直的一次的是吧，直线。

只不过呢我们可以通过斜率和截距，来固定当前的这条直线，当然还是如果按照它是一条直线的规则，我在数据集上按照经验风险最小化进行学习，你再怎么学啊，你这个斜率和截距再怎么调整，你也是一条直线。

可以看到这条红的这条直线模型，要比这条平行的直线性能上要好多好多了，为什么，因为大家可以看到哎，他试图去尽可能的尽自己最大的努力，去怎么样去拟合我这个数据增长，下降增长的这个规律性。

但是只限于它本身就是个直线，你不可能要求他把这么好的数据规律，表现出来是吧，人家已经尽力了好了，我们再努力一下，怎么在努力，比如说我们令FX等于ax3次方，加BX方加CX加D。

很显然它的最高次幂已经变成三次曲线了是吧，FX是不是还可以继续啊，比如说ax4次方加上BX3次方，加CX方加DX再加一，你会发现随着X的幂次的增加，随着X的幂次的增加，我当前这条模型啊，当前的这个模型。

它的重力和线性模型，就变成了所谓的非线性模型，你会发现哎当随着这个幂次的越来越高，你会哎是不是已经很好的啊，这当然是在按照我们的经验，风险最小化，已经很好的去尽可能的去拟合，我数据本身所蕴含的这个。

正弦曲线的规律了是吧，这是第三幅图好了，按照这个策略啊，按照这个策略，我们继续增加我们的模型，幂次FX等于ax9次幂加BX的八次幂接加大，继续往后面不写了，哎这个时候当打模型达到90米以后。

你会发现看再看这条红色曲线，你发现了一个什么问题吗，有没有同学发现，模型严格地穿过了我们的样本数据好了，模型严格的穿过样本数据意味着什么，意味着我在数据集上所学习到的这个模型，它的预测结果。

在每一个样本点上都和实际结果相等，按照我们的经验，风险最小化，我们知道每一个点上的损失值都是几，我说你看严格的一一穿过嘛，有一说在这个点上，在这个点上，在这个点上，我的输入值和输入的预测值和。

输出的预输出的实际值是完全相等的，意味着这里的FX和这里的Y是相等的，我不管用的是什么损失函数，它的值都是几零，在每一个点上都是零，加起来还是零除以N还是零，哎这是刚才我们所说的那种极端情况。

就是在整个数据集上，我们构建的当前这个九次幂的模型，严格的一一的穿过了样本点，每一个样本点上的损失都是零，在整个数据集上的损失也是零，经验风险就是零损失最小的，按照刚才我们所说的经验风险最小化的结论。

我们知道在FX等于零，FX等于ax加B，FX等于ax方加bx加C，以及FX等于ax的四次幂加BX，三次幂加4X方加DX加E，一直到FX的九次幂模型里面，问一下大家，如果严格按照我们的经验。

风险主角化的话，你认为这12344个模型。

哪个模型是最优的，按照经验风险最小化，我们得到的结论是。

九次幂的模型是最优的，但是。

嗯你同学会困惑，你这个四啊。

你这个四是你看出来的对吧，你这个40你看出来，但是严格的按照经验风险最小化，人家可是这个损失为零的，是最好的模型对吧，这个时候你会发现，我们现在是在知道人家是一个正弦曲线的，前提条件之下，你加以判断。

说这个四次幂的这个模型是最优模型，因为有人说哎你不这不正正好符合升上升后，下降后上升的这个规律吗，但问题在于，这是你知道人家这是正弦曲线，你如果你不知道呢，你不知道，你只能按照刚才所谓的经验风险最小化。

去找当前这个模型，按照只按照经验风险最小化，你会发现你找到的是这个九次幂的模型，很显然我们又知道我们又又又又上帝视角是吧，又知道这个模型很显然不是我们要的正弦曲线，能不能出在哪，他最后一个图啊。

他最后一个图这个图里面哈，先看坐标系，横坐标横坐标横坐标是模型的幂次啊，横坐标是模型的幂次，从零次幂，二次幂，四次幂，六次八次，九次幂，模型的幂次纵坐标是我们的损失，是我们的经验风险啊。

你可以认为是我们的经验风险就可以了，那么我们现在要得到的是模型的幂次和损失的，经验和经验损失之间的规律性，先看这条蓝色的线啊，这条蓝色的线我们是在训练数据集上来完成的，模型的训练，刚才我们说过。

数据集分成两部分，一部分是训练数据集，一部分是测试数据集，我们现在在训练数据集上进行模型的训练，在训练集中进行模型的训练，这条蓝色的曲线告诉我们，随着我们数据，而随着我们模型的miss的越来越高。

随着模型的miss的越来越高，我整个在训练数据集上的损失在依次下降，看到了吧，依次下降，就像刚才我们所说的零次幂的时候，它是一条平行直线，这个它性能很差，唉一次幂上好了一点了，二次幂，三次幂。

四次幂的时候越来越好，一直到90米的时候，严格的穿过了样本点，这个时候他的损失为零，所以说你会发现在训练集上，我们得到了一条严格下降的这么一条曲线，它说明的是在训练数据集上。

我们训练的模型会随着幂次的增加，损失会越来越小啊，这是一条直线，这这这这条曲线，那么刚才我们所说的，我们的数据集不光是只有训练数据集，还有测试数据集，很明显训练几个测试集是不相同的数据对吧。

当你训练完成以后，我在这些非训练集的测试集里面，就是和你们训练过程没关系的一堆数里面，再拿出一个新的数据，来拿到你模型里面来个试试，当然测试题里面的这些数据，也是按照正弦曲线的规律来选取的。

只不过呢他可能在这儿这儿这儿这儿这儿啊，甚至包括可能还在这啊，包括一些错误的点是吧，哎这些新的在测试集的数据，再拿回到你这个训练之后的模型当中来，验证一下你的训练结果到底怎么样，那么一开始的时候。

随着你这个模型的密度的增加，而损失也是减少的，这个我们知道，因为在最初的时候，是因为你的模型的性能本身，限制了你的预测精度，就是你这个模型啊本身这个能力就太差对吧，但凡是能够好一点。

你这个性能就马上就下降很多啊，马性能就马上提升很多，损失下降就很快，但是但是当达到一定程度的时候，你再增加这个幂次啊，再拿着测试集在更高幂次的模型上进行测试，你会发现损失非但没下降，反而增加了，为什么。

因为你高次幂的这些模型的精度，高次幂的这些模型，它严格地穿过了一个一个的样本点，已经不能够再反映正弦曲线的规律，而我们知道测试集上的数据，是按照正弦曲线的规律来产生的。

这就造成了你这些测试及新的测试及数据，在这些高次幂里面，就反映不出来这些正弦曲线了，能明白什么意思了吧，所以你会发现损失非但没下降，反而增加了，那这个时候我们就说啊，当出现这种情况的时候。

我们就说当前这个模型出现了什么，出现了过拟合，什么过拟合，就是你过分的去拟合了样本数据，而这些样本数据并不一定是按照，并不一定严格地按照我们的数据规律来生成的，他可能是就是因为误差。

就是因为采样的方法错了啊，甚至就是一些随机的扰动啊噪音，那这个时候你反而是这些高次幂的模型，反而可能学习到的就是这些采样的误差，错误采样的随机噪音，那这个时候你想想你拿到一个新的样本数据。

再来进行测试的时候，你怎么能测得准呢是吧，那这个时候怎么办，这就是过拟合现象啊，过拟合现象看下面啊，所谓的过拟合就是学习啊，学习的时候选择的模型过于复杂，它所包含的参数过于多啊，你幂次太高，当当然。

当然幂次高仅仅是模型参数过多的一种表现啊，并不是唯一的表示啊，以至于当出现已知语言出现了，对已知数据预测的很好啊，你训练的时候就是已知数据拟合的很好，但是对于未知数据预测很差的一种情况，很差的一种情况。

这被称之为是过拟合现象，过拟合现象，过拟合现象怎么办。

过拟合现象的产生，是因为你这个模型太复杂是吧，模型太复杂，那我们在模型复杂的基础上。

我尽可能的使这个模型看着，是不是这一段区间里面的模型是比较合适的，我的训练啊，训练集上的损失和测试集上的损失，都还可以接受是吧，都还可以接受，那这个时候这几个模型是比较不错的。

我们能不能把这些模型选出来啊，那以什么样的策略加以选择呢，刚才我们已经分析了我们的策略，问题就出现在我们按照经验风险最小化，这个策略进行模型选择的时候，我这个只考虑到了损失函数尽可能小的问题。

没有考虑到模型的复杂程度，而我们知道模型的参数过多，会造成所谓的过拟合现象，换句话说，在我一边追求损失尽可能小的时候，我还需要考虑到模型的复杂度啊，我需要考虑两个因素啊，嗯大方向不能变啊，损失还要小。

但是呢你不能过分小，还需要考虑什么，考虑到模型的复杂程度，那这个时候怎么办，来，就在原经验风险最小的基础上，再加上一个所谓的正则画像啊，正则化像所谓的正则化项，就是用来表示模型的复杂度。

用来表示模型的复杂度，而我们知道你精度越来越高，一定意味着模型的复杂度越来越大，是这样吧，如果我们把模型的精度，也考虑到我们的策略当中去的时候，我们再看一下，如果我们希望使整个的损失小啊，整体的损失小。

那么当然我们一定是希望，我们的经验风险尽可能的小，而我们又知道经验风险尽可能的小，造成的结果就是模型怎么样相应的复杂，那么正则化像这个部分的取值就增加了，而你会发现，这个时候就可以起到对抗我们。

经验风险最小化的那种冲动，是这样吧，现在我们要使的是整个他俩的和尽可能的小，这个和尽可能的小，一方面我的经验风险要尽可能的小啊，损失吗，损失要尽可能的小，这是没问题的，但是呢损失的小到一定程度以后。

会造成我的模型的过分的复杂，复杂度就上去了，而这个时候模型的尽可能的小，和复杂度增加之间的这个和的这种对冲。

就使得唉，当前这个模型就不会出现所谓的太复杂，但是呢性能又不错的一种情况，这就是所谓的结构风险最小化，所谓的结构啊，所谓的结构就是在经验风险的基础上，再加一部分啊，再加一部分构成整个画像。

这被称之为结构风险最小化好吧。

结果风险最小化，那这个时候的这个复杂项啊，复杂程度的这个复杂项怎么来进行定义，这个复杂项呢一般我们有多种选择啊，比如说L2范数也可以，L1范数也可以，L2范数呢是这么来定义的。

这是等于二分之1W的二范数的平方啊，W的二范数的平方之类的，W是模型参数，模型参数，模型参数呢刚才介绍过，就是W1W2，一直到WN，那么这个向量的二范数就被定义为分量啊，分量W1的平方加上W2的平方。

一直加了WN的平方，开根号是二范数，然后呢，二范数的平方加上平方项，平方和根号就嗯消掉了是吧，消掉以后就变成了二分之1W1的平方，加W2的平方一直加到N的平方啊，这是我们的L2正则画像最常用的这种方式。

L1正则画像呢也用啊，也用，但是用的少，你知道就可以了。

那么大家看看关于这一部分，从损失函数定义开始啊，零幺损失平方损失绝对值，损失对数损失，有了损失函数。

我们就可以定义我们的第一个规则啊，或者第一个策略就是经验风险最小化。

但是它会出现过拟合现象，这个时候我们通过正则化项。

来定义所谓的结构风险，结构风险最小化，就可以取到那种尽可能损失小模型，又尽可能的不复杂的这么一类模型啊。

作为我们的最优模型，然后呢细节上给出它的L2范数的形式，这部分看有什么问题吗，没问题，咱们继续啊，啊可以，那下面有个问题啊，就是当我们定义了结构风险以后对吧，当我们定义完了结构风险以后。

我们怎么去找这个结构风险最小的，那个还是N模型啊，怎么去找这个模型嗯，找这个所谓的最优的模型，刚才我们已经说了啊，不管你是一个几次幂的这个模型啊，它也是定义在参数空间上的对吧，定义在参数空间上的。

所以呢就变成了一个在结构风险最小化的策略，基础上，找最优模型的问题呢，变成了找最优参数的问题啊，找最优参数的问题，那么怎么才能找这个最优参数呢，看一下我们这个问题呢，把它图石化一下，横坐标是什么呢。

横坐标是参数，纵坐标呢是我们的结构风险啊，结构风险，那这个时候呢，一般情况下我们可以把这个结构风险函数啊，认为是一个所谓的凸函数啊，大体上呢是这样的，当然并不一定是二次的啊，并不一定并不一定是二次的啊。

它可能是多次的，但是呢往往我们可以认为它是个凸的形状的，那这个时候呢，问题在于找这个函数的最小值所对应的W，那么如果我们看一眼啊，那当然这个W就在这，但问题是我们怎么能够找到这一点。

才是个麻烦的问题是吧，一般情况下呢，我们采用所谓的迭代方式，什么叫迭代方式呢，我们在所有的取值空间上，我不是可以从这从这个区间上任意取值吗，我可以在这个区间上任意取值，比如说我在这个地方取消W1。

那么W1所对应的损失在这，所以这个点就是我们的起始点好了，我找到这儿，这个点不是我随机取的，那我要从这个点到这个点移动，怎么移动，哎好在我们在这个高等代数啊，这个告诉我们。

按照他的梯度的负方向就可以找到我的最低点，函数的最低点啊，呃这个就类似于我们嗯就是嗯我们在山顶是吧，我们要我们要下山，那么从四面八方都可以下山，当然我们最高的效率呢就是找一个坡，最陡的位置。

那所谓的坡度走的位置呢，就是我们的梯度负方向啊，就可以尽快的能够下到山顶，那这个时候的所谓的梯度就是求导吗啊求偏导，我们对参数求偏导就可以了，比如说哎按照这个方向我都是这个点，这个点是W2。

然后到这个到了W2这个点呢，我们需要判断一下是不是到了山顶了，还没到山顶，那这个时候怎么办呢，再继续收敛哎，比如说这是W3，还不行，再往下啊，1W比如说到WNWN和这里的这个W星，他俩的差值呢非常小了。

非常小以后我觉得他俩就差不太多了，就认为啊已经在这个W星的附近了，那这个时候的W星，就是使得我们的结构风险尽可能小的，那个参数W，那么很显然，这里的W是通过一个迭代方式来完成的，所谓的迭代方式呢。

就是不断的使用我们的结构风险，对我们的参数求偏导，求完偏导以后得到的就是我们的负梯度方向，负梯度方向在原有的W的基础上进行一个计算，就得到我的新的参数，新的参数在用我们的这个结构风险。

对新参数进行求偏导，再和我们的原W进行一个计算，得到一个更新的参数，一次反复的计算，就像刚才一次反复的计算，我们就可以收敛到一个和这个W星啊，所谓的最优解非常非常接近的一个位置，也就可以了啊。

我们精度上一般并不严格的，要并不严格的要求相等，也没必要，一般情况下我们也也做不到啊，只要它小到一个啊，一个一个阈值也就OK了，好吧，这就是我们的优化算法，当然这只是一个怎么说呢。

这只是一个就是框架性的描述，具体问题你还需要给出具体的结构风险函数，结构风险函数里面你需要具体的给出损失函数，不同的损失函数对W的偏导的计算是不相同的，这个应该没问题是吧，你如果是个你使用的是平方损失。

你平方损失求偏导，如果你使用的是一个绝对值损失，绝对值损失求偏导对吧，如果你使用的是个其他损失，那其他具体的损失形式对参数求偏导就可以了，好吧，这是关于优化算法部分，这一部分呢是比较抽象。

因为它的具体形式没有给出，当有了具体函数形式以后，你需要根据具体的损失函数形式，对你的参数进行偏导计算好了。

当我们有了一个模型以后，我们希望对生成的模型加以评估，当前这个模型到底嗯怎么样，靠谱还是不靠谱啊，所以这个时候呢，我们需要给出所谓的性能度量与评估方法啊，性能度量与评估方法。

当然这里的性能多样和评估方法，和我们的损失函数呢非常类似啊，基本上呢我们也是拿相对应的损失函数来进行，最终的性能评估啊，性能评估啊，看一下训练误差啊，训练误差，训练误差当然是训练数据集上是吧。

训练数据集上模型Y等于FX，关于训练数据集的平均损失，就构成了所谓的训练误差，所谓的训练数据集的平均损失，就是拿我们在训练数据集上的预测输出，和实际输出进行损失计算，这是数据集上的误差。

当然测试集上也同样可能会进行一个评估，在测试集上来完成损失的平均计算，得到的就是所谓的测试集上的测试集上的误差，但是这两个误差哪个更有用啊，当然很显然是测试集上的误差更有用啊，这是这是很显然的。

因为我们前面已经讲到过，你不可能哈在训练集团完成训练，再用训练集上的数据做训练集上的测试误差，计算算出来意义不大啊，这个值一般要远小于远小于这个测试误差，因为我们知道测试数据集是不参与训练的。

而这种新的数据集才能更好的去测试，我当前模型的性能啊，这是关于这个训练误差和测试误差，如果在特殊的情况啊，损失函数是零幺损失的时候，这个时候的误差啊，就是所谓的误差率啊，它只计算误差了多少。

就是误差率的问题，他没有测试上误差的大小啊，这个知道就可以了，当然呃测试集上的准确率呢，就是在测试集上完成相对应的计算就可以了，这是关于这个呃，你会发现这都是我们的这个损失上的计算，损失上的计算。

那么如果我们面临的是一个分类问题啊，如果我们面临的分类问题，因为前面所有的工作啊，前面所有的工作基本上都是回归问题啊，都是回归问题，都是在实数集上的回归问题，如果我们面临的是分类问题呢。

我们稍微不太一样啊，稍微不太一样，那区别在哪呢，因为分类问题是离散的是吧，就像刚才我们看到的零幺，那个三好学生和非三好学生那个问题，它的它的取值是零散零散的，那这个时候怎么办，看下面的规定哈。

先给出四个定义啊，给出四个定义，第一个定义呢称之为是真正力，什么叫真正力啊，真正力就是张将正类预测成了正类，什么叫正类预测成了正类啊，比如说我们刚才那个例子，如果你是三好学生啊，你是三好学生。

这是大前提，即使你是三好学生，因为我这个模型啊也是时灵时不灵是吧，模型的也不一定百分之百都能预测对，所以就会出现两种情况，哪两种情况呢，就算你是三好学生啊，我也可能会把你预测成三好学生，这好像是废话。

但是呢这是一种情况，另外一种情况呢就是即使你是三好学生，我也不排除把你预测成非三好学生的情况，所以说其中你是三好学生，把你预测成了三好学生，这种情况就被称之为是真正理啊，真正的当然如果你是三好学生。

就把你预测成了非三好学生，这被称之为是，将重力预测为负利，称之为是假复利，同样如果你不是三好学生，也有两种情况，一种情况呢就真的把你预测成了非三好学生，另外一种情况呢就是把你预测成了三好学生。

那同样将父类预测为正类，称之为是假证类，将父类预测为负类，称之为是真父类，所以你会发现哈，以我们两个取值真假为这个取值空间啊，然后根据预测的不同情不同情况，我们可以分为四类，不同情况。

这四类分别为真正立假复利，假正立和真父类这四种情况，那好了，有了这四种情况以后，再往下，有两种指标啊，P值和R值，P值和R值，来分别评估当前分类的这个性能指标，其中呢我们看一下这个精确率哈。

精确率我更喜欢使用这个查准率，查准率，因为我觉得查准率啊，这个这个更容易理解，你自己理解理解什么叫查准率啊，什么叫查的准不准，怎么理解这个准查准率，你再看看它的定义哈，定义的分子分子是什么。

分子是TPTP就是正样本分别成了正样本，就是你本来是三好学生，又把人家预测成了三好学生，这样的预测对了的啊，把正样本预测对了的，样本元素的个数统计成TP，如果他是分子，那么怎么体现出所谓的查准率。

看看准不准，那分母又是谁呢，TP是所有的正样本，预测成了正样本的元素个数，那分母分母呢是由两部分组成，分别是TP，就是人家本来就是正样本，你也把人家预测成了正样本，还有一部分是FP，FP是谁。

FP称为是假正义，就是人家本来是负样本，你把人家预测错了，预测成了正样本，是哪一部分，是这部分看到了吗，这一部分是FP，那你看看TP加FP是什么，TP加FP是不是从预测角度的。

这个从预测结果的这个角度上，我们看到就是把所有的预测为正样本的，这个元素的个数进行了统计，分母上分母上是你在预测里面，但凡是预测为正样本的，我都拿出来统计一下有多少个，然后呢。

我知道在这所有的预测为正样本的元素当中，有一部分是预测对的，就是TP，我们把TP作为整个预测为正样本的比值，称之为是P值，你看看是不是所谓的查的准不准呢，是不是查的准不准，你正样本有有三个。

但是呢你查出来所有的重量本是四个，那很显然，查准率是43，当然如果你说查准率是3/3，意味着我原来只有三个人正样本，你查出来的三个正样本，那就是3/3就查准率吗，来看一下啊，另外一个称之为是查全率。

查全率，查全率的分子还是TP啊，查全率查全率的这个分子还是TP，不同的分母上分母是谁，分母上还是TP还是TP还是TP，FN是谁，FN知道FN在哪，FN在这，FN称之为将正类预测为了父类。

也就是说我还我本来是正类，但是我预测错了，预测成了父类，就是这一部分，这一部分你可以发现啊，分母是所有本来是正样本的元素的个数，只不过其中有一部分预测错了，我看的是我真样本个数占就查出来的。

真样本个数占所有样本正正样本个数里的比值，这被称之为是茶全绿，查的全不全，在所有的正向本里面，我查出来是不是把所有的正向本都搞出来了，这被称之为查全率而止啊，这两个值呢是在分类问题当中啊。

用来进行性能测，性能度量的两个指标非常重要，当然下面也有调和调和指标F1F1值啊。

这个看一下就可以了，好了好了，以上哈，以上是我们今天关于术语部分的一个介绍。

看看这部分还有什么问题吗。

下面呢会有一个例子，这个例子呢嗯不作为一个重点内容，为什么呢，因为这里面的这个代码部分，我们需要到下一个阶段啊，下一个阶段啊才能讲到这个地方呢，仅仅是把这个例子放在这儿啊，放在这个地方，有兴趣的同学呢。

你可以顺着敲一遍感受一下啊，这是刚才我们所说的啊，就是刚才那个过拟合现象的那个问题啊，嗯不做要求啊。

有兴趣的同学可以做一下啊，这部分有什么问题吗，嗯这个我觉得今天我们讲到的所有的内容啊。

都是希望大家必须要记住的，这个没什么可说的，都是一些最基础最基础的内容，除了原理就是概念，除了概念就是一些基本描述啊，这些东西是作为我们这个方向最基础的内容，所以今天这些内容务必啊，希望大家全部搞明白。

全部能够理解好吧，这个阶段没有任何的可商量的余地，OK好。

没问题，咱们继续哈，因为我们后面还有两个模型。

有了这些作为基础以后，我们再看模型的学习呢，我觉得就相对，看啊两个模型，这两个模型呢分别是线性模型，线性回归和我们的这个逻辑回归，这两个模型呢，都被称之为广义线性模型当中的一类啊，它都是线性的啊。

都是线性的啊，所以说性能上呢并不是多么的突出，但是你会发现根据这些模型，我们可以进行扩充扩展，来构建非常非常复杂的模型，所以说呢，这些模型还是很有必要进行学习和了解的好吧，我们看看第一个线性回归模型。

首先看一下数据集，数据集DX1Y一一直到XNYN，这个没有太多可以介绍的是吧，首先X是N维的向量啊，X是N维的向量，Y呢是我们的连续实值啊，连续实值，所以它是被称之为是什么问题啊，回归问题啊。

从RN向R的一个映射啊，RN向R的一个映射，那这个时候多元线性回归的形式被定义为，FX等于W内基X加B啊，W内积X加B其中X是一个RN的向量，RN的向量，那么W呢也是一个RN的向量。

就是前面我们讲到的啊，它就是对应的模型的参数啊，对应的模型的参数，很显然这里的X是N维的，这里的W也是N维的两个内积，两个向量做内积，我们应该知道它就是对应维度的值进行相乘，然后进行求和。

所以展开之后是sum i从一到N，因为你有N个维度，WI乘以xi，这里的W和X分别是向量和向量X，对应的维度啊，每一个都是标量，然后再加上一个偏置B，这被称之为是多元线性回归模型。

有问题想不明白这到底是怎么回事，如果你想不明白呢，我们可以把问题简化一下，怎么简化一下呢，令令这里的N等于二啊，如果如果实验是有问题，你令这里N等于一啊，我们先从N从一开始好吧，令N等于一。

如果令N等于一，你看看这个模型退化成什么样子，退化成FX等于就是WX加B，因为这里的W和X都退化成什么，退化成了标量，化成了标量，那这个时候就变成了什么，变成了这个X就是FX。

然后就变成了一个平面下面的平面直角坐标，下面的线性回归模型，我相信这个问题在我们初中就解决过是吧，初中就解决过，那随着这个N比如说等于二，N等于二，就变成了X1，再加上一个维度X2。

那么很显然这就不再是一个平面的问题，而变成了一个什么，变成这个三维空间的问题的学习是吧，当然这个地方N等于三，我们在空间里面就画不出来了，但是我们知道不管怎么样，他同样的逻辑还是每一个X对应一个。

它所对应的全职，然后把X和全职进行相乘以后，把所有的维度进行累加，最后加上偏置B这就是多元线性回归模型，由专业线性回归模型以后呢，我们做一个简化啊，做一个简化，什么简化呢，因为你会发现啊。

短信微模型里面有一个偏执B啊，有一个偏执B它在这个地方嗯，形式上比较难处理，那怎么办，我们化做一个化简，怎么化简呢，下面就考验啊，当看一下刚才同学们关于这个行向量，列向量有没有有没有搞清楚的问题了。

来看下面令啊，注意令令什么，令这个w hat等于WB的转置，利用这个x HT等于X1的转置，然后呢用完以后呢，我们就我们就可以把上述的FX等于WX加B，转化成了FX hat等于w hat。

内机x hat为什么能这样去做，为什么练完这样以后得到下面这个式子，而上面这个式子和原式是相同的，看看啊，把它写全了，把它写全了，按照刚才我所说的，这是一个什么向量，这是一个加转职啊。

加转职之后它是个列向量，所以它应该是长这样，W b，还记得W长什么样了吗，W本来是个列向量，所以是W1W2点点，遇到WN不要忘了，这都是列向量，都WN然后呢再加上这个b w hit啊，等于这个样。

看一下XHXHX等于X1对吧，X1的转置，所以是X1等于什么，等于X1X2。0，一直到XN最后加上一个一啊，XX长这样，你看看如果x w hat是这个形式，x hat是这个形式。

你算一下w hat内积x hat等于什么，按照我们这个呃内积计算，就是对应的维度相乘求和吧，就是W1乘以X1，加上W2乘以X2对吧，然后点点一直乘到WN乘以XN，不要忘了最后这个地方还有个BB乘以几。

B乘以一，加上一个B乘以一，那么前面是SUI从一到NWI乘以一个XI，再加上一个B乘一，是不是等于B，所以你会发现他最后的标量形式，和这里的标量形式是不完全相同的，所以说啊，这种方式啊。

成立于是这个增广特征向量和增长权重，只是为了形式上简化一些，为什么要写在这儿，其实差的意义不在这个具体形式上，我相信这个同学可能都比较清楚，它在放在这个地方的最突出的一个目的，就是希望大家能够习惯一下。

这些向量的表示形式啊，仅此而已好了，模型有了以后，很显然我们知道这里的所有的参数都是未知的，是吧，所有参数都是未知的，我们学习的目标也就是找到所谓的最优的参数，这个W星，而我们知道你要找这个W型。

就需要给出什么，给出你的策略啊，给出你的策略，那给出策略你就需要先定义什么，先定义损失，所以看下面损失函数呢，我们使用平方损失啊，使用平方数损失，所以是Y减去FX的平方啊损失。

然后呢我们看一下经验风险啊，经验风险就被定义为数据集上，所有的损失函数求和，然后呢求平均啊，这被称之为是经验风险，那有了经验风险的定义以后，我们下面的模型选择，就可以按照经验风险最小化来进行选择。

最优参数就是最优的w hat星啊，最优的w hat星被定义为所有的损失函数啊，所有的函数的损失数据，以上所有函数的损失最小的参数啊，最小的参数作为我们的最优参数，这个没什么问题吧。

把这里的FX hat展开，就是w hat乘一个x i hate啊，差值求平方，然后sum的加求和，然后呢其实是有两种方式啊，这一种方式呢我们可以做它的解析解，就是所谓的最小二乘法啊，我们看一下啊。

最小二乘法告诉我们的是什么呢，就是我们我们上面这种标量形式，可以写成向量和矩阵的形式啊，就上面这个式子啊，上面这个式子等于下面这个式子啊，这两个式子是等价的，等待着什么呢，我们重新定义一个这个矩阵啊。

这个矩阵是由X1X21到XN，所有数据的转置，以及和一啊进行组成的一个呃增光矩阵，这个矩阵和我们这个Y也写成一个向量形式啊，Y也写成一个向量形式，就把从它的标量形式上展成它所对应的向量，矩阵形式。

写成这种矩阵形式以后，我们要进行求偏导还是刚套路是一样的，只不过形式上变成一个标量矩阵形式的偏导啊，这个需要看一下矩阵论里面的相应知识，这个问题也不大，如果我们对W求偏导。

这个时候我们可以得到它的解析解是2x hat，这里的X是刚才那个矩阵乘以XW，height减去Y减去Y，这个时候我直接就可以通过矩阵计算，因为，让这个式子等于零以后，我直接就可以把相应的W解出来了。

这个时候我只需要组成一个X组成一个X，然后呢，这个时候X和x HT，就我们知道转职之后就为标啊，就为我们单位矩阵了是吧，有了单位矩阵以后，我就可以把W表示出来了，这个时候我们可以看到啊，写一下啊。

这个时候是呃X的对xxx，然后是w hat减去一个XY等于零，然后移项之后是这样，然后再把它取一扔过去时，这个时候WH等于，xx转置的逆矩阵，然后是XY，看看这个是不是，对，因为过了之后还要加一个转置。

是这样，那可发现我们可以得到一个关于啊，这个W的一个解析解的一个形式啊，这种形式呢嗯非常的怎么说呢，因为正好是用最小二乘法得到它的解析解，这不是一个大概率的情况，就是我们后面再模型学习的过程当中。

往往接触到的都是近似解，所谓的近似解啊，就像刚才我们所说的，就是求偏导等于零就可以了啊，这个时候的求偏导等于零，因为它都是只有一次幂啊，这个形式上也非常容易理解啊，就是我们的X的转置。

然后乘以XWH的减去Y啊，就是它的偏导值，然后乘以阿尔法，这个阿尔法是我们把它称之为一个学习率，什么叫学习率了，刚才已经说过啊，就是我们在进行负梯度，球完球完之后的负梯度啊，仅仅是个方向啊，是个方向。

我们需要决策的是，按照这个方向向前迈多大的步伐啊，就像我们下山那个例子一样啊，我们要从山顶下山，我们的负梯度仅仅是告诉了我们，某一个方向是下山最快的方向，但是按照这个方向，我们要下山的话。

需要决定当从当前位置向前迈多大一个步的啊，有同学说当然迈的步子越大越好啊，不一定，因为有的时候步子越大，可能就找到一个很差的一个位置是吧，这个时候呢步子小呢，反而是相对更好的一个策略。

但是步子小呢就嗯怎么说呢，就更耗费计算次数，所以这个时候这个阿尔法，或者说这里的这个学习率就非常重要啊，这就被称之为超参数啊，这被称之为超参数，这个超参数的选择，就是使用我们的那个验证集里面的数据。

来进行选择啊，就说那验证集数据干什么呢，验证集数据是选择最优的，阿尔法的这种超参数就决定这种不长好，决定我们的这种学习率的这种参数，那不管怎么样，我们这个时候只要使得我们的初始位置等于零。

不断的进行迭代，就可以得到近似的最优解W星啊，这个时候呢找到的就是我们的最优解，当然以上是按照我们的经验，风险最小化来完成的，下面的同样我们也可以通过结构风险最小化，就加上我们的正则画像啊。

加上我们的正则画像，如果我们的正常画像，使用的是所谓的L2范数啊，那么L2范数，那这个时候就是就是使用的，W的二范数的平方啊，W2范数的平方，这种呢我们也把它称之为是领回归啊，如果你使用的是L2范数。

也被称之为是领回归，当然我们同样也可以使用L1范数，L1范数被称之为是套索回归，还有一种呢是既使用L1也使用L2啊，使用L1和L2的一个中和，这里称之为弹性网络回归啊。

这个都是常用的不同的这个回归的一种方式啊，根据他的正则化项的不同，来体现出他们的模型的不同，你会发现你会发现这三个不同的这种方式啊，不同的策略选中了那个W可能也是不相同的啊，可能也是不相同的。

当然虽然嗯看数据啊，也看数据啊，数据集的这种情况，也影响他们的这种精度的情况，好吧，这是多元线性回归的一种形式，下面呢同样有一个例子啊，下面同样有一个例子，大家看看有什么问题吗，关于断性回归这一部分。

累积xx是个行向量吧。

看看啊，x hat是抗向嗯，你看啊x hat在这是吧，x hat同样也是个列向量，我们前面说到过啊，行向量的转置不就是个列向量吗，XX是列向量，X是列向量，行向量的转置回顾一下重点啊，还是你都要。

你需要对这个多元线性回归的这个模型定义啊，模型定义回去以后好好的再理解一下，实在你觉得这个多线性回归有问题，你就把它退化成一条直线啊，对换成N等于一的时候一条直线，这时候我觉得还好理解一些好吧。

有这个模型定义以后，你会发现你要找的不就是这里W和这里的B吗，有我们的斜率和截距确定一条直线了，当然如果你扩展一下，这里的斜率就变成了斜率向量W是吧，截距还是那个截距就变成断线性回归。

那这个时候很显然这里的W我是不知道的啊，这里的这个B我也是不知道的，下面你需要确定这个W和B那怎么确定呢，下面其实我们已经很清楚的知道，我们需要定义损失函数，有了损失函数，注意啊。

这个损失函数L被这里的L确定下来了，就是Y减去FX对吧，Y减去FX，而我们知道FX刚才已经被定义为w hat，内积XH所以这里面看一下这个式子，这个式子里面的Y已知还是未知，问一下同学们。

这个Y是已知的还是未知的，已知的，这里有W已知的还是未知的，未知的啊，X已知的还是未知的已知的，因为这里的X和Y都是我们数据集里面的，XY好吧，只有W是不知道的，所以你找的是那个最有W啊。

换句话说你在下面这个计算过程当中啊，不管你是用最小二乘法还是用那个迭代法，你脑子里边符号有很多，你必须要清楚的知道哪些符号对应的是什么值，每一个值是已知还是未知的啊，有的时候不要认为这个YY。

不认为Y不就是不知道的吗，是不是啊，Y在我们这个数据集里面，XY都是一致的，反而是你定义的这个模型参数W是未知的，你找的就是这个模型参数W是吧，用的最多的就是我们的迭代方式啊，就是求偏导数等于零。

求出这个式子以后负的偏导值啊，就是我们的下降方式乘以学习率，然后呢在原值上进行一个迭代，就得不到新值，这个过程需要反复的进行计算，最终就收敛了我们的最优解啊，然后呢。

结构风险最小化也是根据不同的这个正则化项，你是L2还是L1好吧，还是L1和L2的这个综合使用，好了我们继续啊，有线性回归以后呢，我们需要讲到保罗的回归，其实啊很简单，为什么这么简单呢，看一下啊。

我们把刚才那个问题回过头来看一下，这是X这是Y，当然这是在平面直角坐标系里面，我们知道这个这个这个模型是Y，Y等于ax加B，很显然我们这里的X是属于R的，Y呢也是属于R的，我们是从实数集空间X。

向实数集空间Y进行了映射，所以呢我们得到的是从R向R这个映射，我们知道这是个典型的什么问题，典型的回归问题对吧，只不过呢我这个回归规律是一条直线而已啊，这是从一个R实数集向另外一个R的映射。

所以是R从R的映射好了，这是行线性回归，看下面一个问题，下面呢我们要通过对线性回归的改造啊，通过对线性回归的改造，把它从一个回归问题啊，把它从一个回归问题，把它改造成了分类问题，把它改造成一个分类问题。

分类问题呢，我们知道分类问题就不再是一个，R到R的映射了，而是R到分类标签这个映射，比如说就像刚才我们前面举的那个表，里面的例子，它就是一个从实数集R对吧，你你输入你的年龄，身高体重。

各科成绩输出的是一个是不是三好学生就不在，你看看下面有个问题，你看看这是回归问题，这是分类问题，你想想有没有办法通过对回归问题的改造，把它改造成分类问题对吧，我从输入空间映射到了R。

我从书空间映射到了零幺，很显然这俩是不一样的，那怎么办，有没有想法猜一下也可以是吧。

啊回答以上两个问题啊，矩阵求导有公式吗，啊有公式啊，在矩阵论，矩阵论里面有，但是呢这不是我们这个地方的核心，因为这里的最小二乘法呢，一我们基本上不会碰到那么恰好的情况。

所以我们用的更多的是这个迭代方式啊，迭代方式呃，二这个矩阵论有兴趣的同学呢，会给大家一些参考资料啊，看一下就可以了，也没什么复杂的，其实如果你觉得呃矩阵求导搞不明白。

把所有的矩阵和向量计算展开展开成标量，标量求导就一目了然了好吧，这不是核心矛盾，只是形式上的一种嗯，形式上的一种简化方式而已，好吧，第二个问题啊，这个超参数怎么选择哎超参数怎么选择。

只能是刚才不是说有验证数据集吗，在验证数据集上，你把你的超超参数的可能的取值，找到几个比较典型的值啊，根据不同的这个呃，根据不同的取值空间，找几个比较典型的值，在这些典型值上一个一个的试一下。

看一下哪个可能更好啊。

好了，回到我们刚才的问题啊，刚才我们已经已经已经知道了，线性回归是R到R的，现在我们碰到了一个另外一个问题，是一个分类问题，是R到零一的，你怎么办，其实已经告诉大家了，如果我们能够完成从R到R。

如果我们能够完成一个从R到零一的映射，是不是就解决这个问题了，但问题在于R到零一的问题，本身就是个R到零一问题的一个这个这个问题，那不是个这不是多此一举嘛是吧，这个怎么能完成R到零一。

才是最核心的一个矛盾，好看下面给出个工具，就是西格玛的函数，这个函数形式哈，你自己看一下啊，这是它的它的这个解析式啊。

它的解析式最重要的是这个函数，它的函数函数形状是这样长，这样看下它的取值空间啊，横坐标在这啊，横坐标在这，横坐标就在正坐标在这，纵坐标在这，这是零值，这是一只，这是一，这是零，然后呢这是纵轴。

它的形状是长这样，这个点呢很显然是横坐标是零，纵坐标是0。5对吧，这是一，这是零，那你看看这个函数有什么有什么特点吗，这个函数是不是就是输入是个R他到零一区间，这是一这是001区间的一个映射对吧。

这是首先我们从函数的形状上分析，得到的一个结论，再从它长的样子上哈，你看看你是不是能够来看看他俩这是零。

这是一点点，你想想啊。

我如果啊如果有这么个工具啊，有什么工具呢，有一个类似于这个什么，类似于那种那种就是门板啊，两个门板，一个门板从上往下，一个门板从下往上，这两个门板呢平行的往中间挤压，挤压的过程当中，你想想是不是。

就可以把一条比你想象中那一条钢管是吧，随着两个门板从上往下平行的往上挤压，这个钢管是不是就受力于它，就变成了大体上就可能会，当然这个地方可能还是直的，但是在这个位置上，当我上面这个钢板压到一。

下面这个钢板压到零的时候，是不是大体上就变成这种形状了，但是这个分段函数是吧，如果我们把这个分段函数把它平滑一点，是不是就可以得到类似于下面这个式子，下面这种形状，换句话说。

如果我们在多元线性回归的基础上，我们知道对应线性回归是R到R的，是吧，是个从输入输入空间，向食指的输出空间进行映射的一个模型，然后如果我能够在此基础上把这个输出值。

再从你看我本来是个X是从R到R的一个映射，X向Y嘛是R到R的映射，如果我们能在此基础上把这个输出的结果，再通过一个西格玛的函数，把它压缩到零一空间里面去，我完成的是不是就是从一个输入向输出。

零一的一个映射，这就是逻辑回归，为什么要在这个多元线性回归后面要介绍原因，其实就在这这两个模型之间的逻辑关系，就在于你看一下，当我们有了一个S函数以后，就sigma的函数以后，我只需要在这个位置看了吗。

这个是Z，这个Z是作为我们西格玛函数的输入，但是如果我利用这个Z等于什么，等于Y，另值这个Z等于YY呢，就是刚才那个FX等于那个WX加B的时候，你会发现，最末的函数变成了WX加B。

本来是多元线性回归的输出，再作为SIGMOID函数的输入，就把一个你看看这一部分是个R，然后呢通过这个mod就把它压缩到哪去了，压缩到了零一空间里面去，没问题啊，加速到零空间里面去，原因这有什么用吗。

这个时候的用处就在于，零幺空间里面的这个取值，如果我们能够判断判断什么，它是大于0。5的，我就认为它取值为几，取值为一，如果它是小于0。5的，这个取值就为几，取值就为零，这样的话我就完成了一个。

你看X是R，通过我的WX加B把它映射成了R，再通过西格玛Y的函数，把它压缩到零幺空里面去，是不是也完成了一个从R的X向零一空间，里面的一个映射，这就是所谓的逻辑回归，看一下，再把它画一下。

画一下他们的关系是什么，首先我们有一个Y等于WX加B的线性回归，然后呢我们再通过线性回归的输出，把它作为c mod函数的输入，然后把这个Y从R空间，再映射到零一空间里面去。

完成从X向零一空间里面的一个映射，好吧这就完了，其实如果把这个解释清楚以后，逻辑回归也就到此结束了，只不过呢细节的地方在于看下面，七级的地方在于这个函数啊，我们需要因为后面牵扯到求导是吧。

我还是老套路吗，你定义损失要求导之后的函数求导哎。

这个地方给出CPY函数的求导，等于原函数乘以一减去减函数啊，就是它的就拍它它的求导啊，用的时候直接拿过来用就可以了好了，下面做一个介绍，第一它的概率分布啊，它的概率分布分两种情况，当X输入以后。

Y等于一的概率，就是刚才我们所定义的在线性回归的，多线性回归输出的基础上，进行S函数的一个压缩和映射，在形式上就是一加上E的负WX，加B次幂分之一啊，就刚才我们所说的，把那个Z。

把那个Z替换成多元线性回归的输出就可以了，当然因为他有两种取值嘛，刚才定义的是Y等于一的情况，那么Y等于零的情况，就是一减去Y等于一的情况，因为它只有逻辑值零和一对吧，你逻辑一的这个概率出来以后。

你用一减去逻辑一的概率，就是逻辑零的概率，形式上得到下面这个式子好吧，那么同样啊同样为了进行这个呃简写，对它进行增广向量的扩充啊，增广向量的扩充得到下面这两个形式，这两个形式上如果还有问题的话。

再想想刚才我们讲到的那些内容，那好了，继续往下，有了刚才那个那个用以后，项目按照套路应该定义损失了对吧，按照套路应该定义损失了，只不过这个时候的损失我们用的是自然函数啊，这是我们概率论里面告诉我们的。

我们可以通过自然函数的最小化，来完成我们的模型学习啊，那么虽然函数怎么定义的，就是刚才我们所说的啊，虽然函数呢其实就是把在数据集上，所有的概率分布进行垒成啊，把数据集上所有的概率分布进行尾成。

数据集上是从X1到Y1，所以这里是派I从一到大N啊，进行垒成围城的时候呢，会碰到一个技术上的一个难点，技术上的难点在哪儿呢，在这个地方，我们知道这里的Y的取值有两种情况，一种是Y等于一，一种是Y等于零。

如果按照这个里程进行展开呢，我们需要分别讨论，在不同的取值的情况下的式子是不一样的，我还需要判断一下这里的Y到底是一还是零，对吧，嗯是比较麻烦的，那这个时候呢看一下，从这个式子到这个式子。

是逻辑回归里面最嗯不太好理解的地方，这一点如果突破了就没问题了，这一点呢其实就是一个小的技巧，技巧体现在哪呢，就是因为刚才我们分析了这个地方，它有两种不同的情况，一种是Y等于一，一种是Y等于零。

我们怎么样加以区别，这里的区别呢，就是把这里的Y的取值形式，放到了指数次幂的位置上，因为知道哈我们这里的Y的取值要么是零，要么是一哎，这个零一取值啊就很有很有这个特色，为什么。

因为我们知道任意值的零次幂都是零对吧，任意值的一次幂都是一，所以呢你会发现哎看这里当你想想啊，当Y等于零的时候啊，当Y等于零的时候，意味着你是负样本是吧，你是负样本，看下面这个式子，当Y等于零。

现在我们分两种情况讨论啊，Y等于零啊，如果Y等于零，带入到下面这个式子，你会发现Y等于零的话，前面这个式子的零次幂，这个式子是不是就是一，因为我们刚才说过，任意值的零次幂都是一嘛。

而后面这个式子等于什么，而后面这个式子是一减去YY等于零，1-1就是一得到的，是不是下面这个式子就是原式，就得到了原式，而你看看这个原式是不是恰好就跑哪去了，这个原式是不是恰好就是Y等于零的那个。

表达式对吧，正好保留的啊，就是前面这个式子变成一乘以原式，是不是还是原式部分，而这一部分恰好就是Y等于零的那个，天概率分布，哎这是一部分，如果Y等于一呢，如果Y等于一，我们看啊，如果Y等于一。

如果Y等于一，这1-1是零，所以这部分是任意值的，零次幂都是一，那一呢一如果这个地方是一，那这个时候保留的是原式，而这一部分是不是恰好又是Y等于一的时候的，条件概率分布的表达式。

所以说不管你是Y等于零还是Y等于一，通过上数这个式子，我都可以很技巧性的把你表示成下士，也就是说我通过你的幂次的不同的取值，你是一的时候，我保留的就是一的表达式啊，条件概率分布唯一的表达式。

如果你是零的时候，我保留的就是天概率分布为零的时候的表达式，但是你俩之间都可以通过这一统一的形式，把你这两种情况加以统一的表示，好吧，就是一点是比较技巧性的，有了这一点以后，下面其实就是对付自然估计啊。

就是我们的对手自然函数，你说对付自然函数以后，我们用其他自然估计就可以了，这个自然估计就是把累乘变成累加，累加式变成这个形式，然后呢对最大自然就是求自然函数最大的时候，那个最优解啊。

那这个时候我们不就仅需要在对数，自然上对W求偏导是不是就可以了，而这个式子再看一遍啊，Y是已知的未知的，已知X是已知的未知的，已知W是已知的位置的位置，求的就是对W求偏导。

这个式子呢看下面虽然函数对W求偏导啊，仔细一点啊，这个时仔细一点，求偏导呢，比如说我们以这个分量来表示一下，第一步对这个式子求偏导，我们知道YY是常数项，所以在这个地方保留，然后呢对这个式子求偏导。

log阿尔法求偏导，那是阿尔法分之一，所以你会发现应该是w height乘以x height分之一，但是我们知道w hat乘以x hat是不是外害，所以啊这个地方，虽然这个外号就是他的求偏导。

然后呢C的WHXH的求偏导，还记得刚才说过那个西格玛Z等于它的一导，等于西格玛Z乘以1-4个MONY，所以你会发现分子部分是这样的，然后呢w xi再对W求偏导是W是xi是这一部分。

所以说以这个分项为势啊为例啊，对WX对W求偏导仔细一点应该没问题，后面类似哈，回去回去之后自己算一下，后面一项复杂一点，在这儿其实也也不复杂，一减YI就在这儿。

你对这一项求偏导是一减去C和w hit分之一，不就是一减y hit嘛对吧，然后呢再对这个负的Z2分之一求偏导，负的注意是负的，你需要在前面取个负号，你看这个负号哪去了，负号在这儿是吧，然后呢他就偏了。

还是X还是xx啊，稍微整理一下就得到下士，有了这个梯度的负方向以后，我们就可以进行迭代了，就可以迭代，注意啊，这是负的，所以负的负的就是正的，好吧啊，OK这样的话我们就可以得到W的最优解了。

回过头来看一下这个从。

S函数啊，你知道S函数引入以后，他的工作就是进行压缩他的工作，S函数的工作就是从R就是从R压缩到零幺，那至于这个R从哪来，这个R是从前面那个多元线性回归里面，得到那个输出，再把它压缩到零角里面来。

这样的话，你会发现我们就可以建立，建立多元线性回归。

和我们的逻辑回归之间的关系，其实在形式上我们可以看到，你看看形式上，就这个这个式子是不是就是把刚才那里的，这不就是那个Y等于WX加B是吧，这个式子就是那个负的负Y，啊有了这个cm函数以后啊。

他做的工作就是把这个多元线性回归的输出，再压缩到零一空间里面去来完成分类啊。

最大的一个策略点就是刚才那个自然函数，定函函数的定义上啊，有了这个自然函数以后就偏导就可以了，同样下面这个例子也仅仅是作为一个呃实例，仅供大家参考，好吧。

好了，那么今天呢我们就完成了。

可以说是三部分的内容是吧，嗯包括我们的这个。

好我们看看我们今天完成的内容，这一部分的基础介绍，我们算是介绍完了，今天呢我们介绍完了线性回归和逻辑回归，啊啊这是我们今天的内容，那么下此刻我们需要介绍决策树，好，会把资料提前发给大家。

有时间的话看一下，好吧啊，今天的内容大家看还有什么问题吗。

OK那么如果没有什么问题的话，我就今天到这吧，这个攻略推导也需要记忆吗，嗯我是这样觉得啊，所以公式推导啊，你现在觉得需要记，是因为你很显然没记住，这不是废话吗，但问题在于我理解。

就是你没有把这个逻辑理顺了，如果你把这个逻辑理顺了以后，你觉得他不是在记了，什么意思呢，就是哎下面说是不是看懂了就可以，当你看懂的时候，我认为其实你已经把它记住了，反过来啊，如果说你说你没记录。

你能看懂了，有的时候是这样，就这些公式这些东西啊，逻辑上如果你理解了，其实基本上你也已经把它记住了，否则的话我不认为你能把它看懂了，好像有矛盾，但是实际上可能就是这样，特别是我们学数学的时候。

你会发现有一个公式，你说你需要死记硬背吗，如果但凡是到了死记硬背的基础上，你八成是没把它弄懂，你说你一条物理定律或者一条物理公式，你说你理解了你还要背吗，他不是那样嘛是吧，所以说现在这个问题是。

因为你现在很显然今天的信息量，我们每一堂课的信息量都会非常大，是你还完全没有完全把它接受，所以你会发现有些东西我不理解，我是不是先把它记住啊，但是我觉得这没意义，如果你真的把它理解了。

哪怕你理解完之后马上把它忘了，其实也没问题，但是你会发现你想用的时候，顺一下逻辑就能想起来也就OK了是吧，OK我们今天就到这，我们的时间啊，给大家提个醒，嗯八成会拖堂。

所以说呢把大家的时间尽可能的留充分一点，好不好，今天我们就到这。

【七月在线】机器学习就业训练营16期 - P6：在线直播：6-决策树、Boosting模型融合的精髓速讲_ev - IT自学网100 - BV1Z9T5ewEKL

那这样的话我们就准备开始啊，这个呃按照我们的计划啊，今天呢我们需要讨论的模型呢是决策树模型，通过我们这张图啊，可以看到决策树模型的位置啊，在这个位置上嗯，它是一大类哈，非常重要的这个机器学习的模型。

以数结构啊为这个模型的这种主要结构呃，其中这个决策树的这种嗯算法还有很多啊，比如说今天我们会介绍到，比如像D3C4。5和cut数这三类角色数，那么在此基础上，通过这张图我们也可以看到呃。

通过今天我们关于决策树的介绍呢，其实还有另外一个内容就是关于继承学习boosting，可能哈，一开始会有些同学觉得比较莫名其妙是吧，讲学的书为什么要把boosting放到一块，那么很显然是因为啊。

我们可以通过在决策树上使用集成方法构造哈，应一种所谓的集成决策树模型，就是BDT模型，然后呢我们以此作为向前推进的一个基础，在推进到GBDT以及哈看一下课表里面。

我们会介绍到这个charge boost啊，这是我们最核心的一个内容之一啊，最核心的内容之一，这也是啊，就是我们为什么要介绍这张图的原因之一啊，通过这种方式让大家可以看到，我们一直往前序啊。

它的基础是我们今天的这三个基本都是模型，好吧啊，那么在讲决策树之前呢，我们看一类问题啊，结合了我们上一次课讲的内容，因为我上一次课啊，重点介绍的是我们积极学习的，一些基本的术语和概念。

这些内容啊会贯穿于我们整个的课程啊，所以呢我们一块来简单的做个回顾哈，首先我们看一下这张表啊，这是我们做上次介绍到的一张数据表，当然内容发生了很明显的变化，那我们看一下这张表，首先我们昨天讲到过啊。

表格里面竖着的一列，我们把它称之为是属性是吧，我们看一下当前这张表格里面有哪些属性，包括年龄属性啊，有工作与否的属性，有没有自己的住房的属性，以及信贷情况的属性啊，这是12344类属性。

那么还有一列呢是非常特殊，它表明了我们当前这一章数据，表格当中所记录的数据的一些非常重要的，决定性的或者结果性的因素，比如说这里有个类别啊，这里有俯视的一个取值，那么在我们上一次讲到的学生表里面。

那么有一列称之为是是否为三好学生，那么一列作为我们的标记列是吧，那么在这张表格里面呢，我们拿到的这张数据表，是银行在进行放贷的时候，对我们贷款人的一个资质的考察，的这么一张数据表，那么很显然。

刚才我们可以看到银行会根据贷款人的年龄，是否有工作，是否有房屋以及他的信贷情况来综合决定，我是不是把当前这笔款贷给你，那么结论就是yes和NO啊，这是我们拿到的属性以及标记列，那么我们上次也讲到了。

那么相对应的每一横行，那么记录的成N为一条记录啊，记录的呢就是我们当前这个实体啊，当前这个贷款人在各个属性上的取值，以及它所对应的什么对应的这个标记的情况，比如说当前这个0号啊。

0号它是一个青年没有工作，没有住房信贷情况一般啊，他的结论呢就是否啊，就银行不对他进行放贷，那我们再举一个例子，比如说青年有工作，没有房屋信贷情况是好，所以银行决定向他进行贷款好了。

那么数据上就摆在这个地方，那我们要做的工作是什么，我们做的工作是基于这张表格啊，训练一个模型来进行判断，当有一个新的贷款申请来的时候，我根据新的申请人的这种基本情况啊，来判断我是否对他进行一个房贷。

这就是我们这张数据表格的一个呃，数据所反映的情况以及它的作用，当然我们在上次讲课的时候讲到过，以当前这个数据表格为例的话，我们完全可以采用什么模型，还有没有同学有印象，可以通过标记哈。

我们可以看到这个标记里面的取值是是和否啊，适合否，很显然是离散的标记值，我们前面讲到过离散标记值的时候，我们需要进一步的进行一个判断啊，离散标记值的取值的个数，很显然它只能取十个否。

那么我们可以做个判断，就当前这张数据表构建，是一个所谓的二分类问题，二分类问题，两个分类是吧，两个取值的分类问题，那么我们其实可以通过咱们上一次课讲到的，那个什么讲的那个逻辑回归，逻辑回归模型来解决。

当前这个解决当前的问题是吧，没问题，那么我们采用另外一种方式啊，采用另外一种方式来对这个问题加一加以考虑，什么方式呢，就当我们拿到这四个特征的时候啊，就年龄有工作，有房屋和信贷情况。

如果你作为一个银行家啊，当你拿到这张数据表格的时候，如果你要对这四个特征加以这个，重要性的一个排序的话，你会认为我要对当前这个放贷款人进行放贷，你最希望考虑的是哪一个因素啊，你考虑的是年龄因素。

是否有工作，是否有房屋还是信贷情况，那么你认为这四个因素里面哪个最重要，可能会有不同的意见，看看大家的选择，那我先说一下我的认识啊，如果我是作为银行放贷的话，我最希望考虑的当然是我的这个放贷资金的。

这种安全性是吧，就是它的风险是不是可控，那既然考虑到风险呢，我去看一下年龄，有工作和有有房屋和信贷，哪一个特征的取值，会对我的这种风险的降低带来决定性的因素，那么我一般会认为这个房屋是最重要的。

当然这仅仅是我的个人观点啊，就因为他有房屋，有一个资产是吧，大不了我放贷收不回来的时候，我可以把他的房屋进行一个强制拍卖啊，就可以保证我的这个呃资金的一个安全性，这是一种考虑。

那么当然嗯有同学说他的现在情况，对他的历史记录会影响到我对他的一个决策，对吧，嗯如果考虑有的说是有工作，因为他有工作，他也可以持续的进行还款是吧，其实年龄因素呢也是一个非常重要的，那么基于以上四个方面。

你会发现根据不同的人啊，或者根据不同的视角，我们会认为这些特征有一个啊，有一个重要性的一个排序的结果对吧，嗯不同的人当然有不同的一个排序，结果他会首先比如说啊，首先他有一种一种选择是。

比如说我先根据他是否有房子，因为房子这个东西，现在来看还是比较保值的是吧，判断一下是不是有房子，如果你有房子和没房子两种情况，我的处理意见肯定是不一样的，如果你是没房子，那不好意思。

我直接就不贷款给你对吧，那即使你是有房子呢，我也非常小心，我再去看一下你是不是有工作，也就是说你这个房子，因为我们知道房子也分很多种情况，地段啊对吧，年限呀，嗯这个是不是学区房啊。

都会影响这个房屋的这个价值，所以我再看看你是不是有持续的还款能力，你的工作是不是稳定对吧，如果你爱你，你没有工作，那这时候即使你有房子，我也我也不带给你，我继续再往下看。

那你有工作还需要看一下你的信贷情况，你的信用是不是良好对吧，你有房子要工作，但是呃贷款这种信诚信记录非常不差，那我很显然也也也也也不带给你，那么再往下我看看你的年龄，当然你会发现。

当我进行这样的一种特征或者，属性的排序的时候，我自然会认为房屋的这个这个重要性，要大于工作的重要性，要大于信贷情况的重要性，以及大于年龄的重要性，那么当你换另外一个视角，或者换另外一个这个呃银行的时候。

可能它的排序就会是另外一种规则，那好了，回到我们现在这个问题当中的讨论来，你会发现当我们有了这个数据表格以后，我们是可以通过这张数据表格，构建一个置顶向下的，这么一种基于重要性排序的一个模型。

来对我们的结果加以分析，当我们再有一个人啊，申请人来了以后，根据他的房子，工作诚信以及年龄就可以进行放贷了，当然不同的银行可能会有不同的结果，那基于这种按照我们特征重要性进行排序。

并且依次对特征加特征的情况加以考察，来决定当前一个结果的这种模型呢，我们一般把它称之为数模型或者叫决策树模型，因为它为我们的决策提供了一种依据，而它最终的形成的就是一种啊，一种树的一种结构啊。

当然这棵树啊是倒着长的是吧，这是根，然后向下，这最终是叶子节点啊，最终是叶子节点，所以说啊通过以上的这个啊小例子哈，我们可以看到今天这一类模型呢它的特点啊，它的特点第一点解决的啊解决的问题啊。

呃可以解决分类问题啊，决策树模型啊，决策树模型一开始的时候，它主要解决的是分类问题，当然我们在分类决策树的基础上对它加以改进，也可以使它来完成所谓的回归问题，一会儿后面我们会介绍怎么去改进啊。

也就是说你先知道决策树模型，基本上我们可以做回归来做分类啊，这是没问题，回归需要稍加改造，这是第一点，第二点它需要对我们的特征来加以排序，来决定我们决策过程当中的一个顺序啊，就是先对谁进行判断啊。

在刚才例子里面，一种情况是先对房子是不是有住房来加以判断，然后再看另外一种特征，再看一个特征，再看一个特征，你会发现它是一次对诸个特征有一个判断的，一个顺序啊，判断的一个依次进行判断啊。

这实际上决策树模型非常重要的两个这个特点，一个就是他做分类问题，另外一个呢需要对特征加以排序啊，或者说特征进行一个顺序性的一个考察，那么这个时候呢就碰到了总结出来就是三步，哪三步呢。

第一步也是非常重要的，既然我们需要对我们的特征加以排序啊，需要有一个谁比谁更好的一个问题，那这个时候，第一个问题就是所谓的特征选择的问题，那为什么你你要把这个住房啊放到第一位啊。

为什么你要把这个有工作放到第一位，为什么你要把这个师傅是有这个信贷情况，放到第一位，你需要对特征加以选择，你需要有一个依据啊，这就是第一步，一旦有了这个特征的选择依据以后，那么第二步的决策树的生成。

我觉得就相当的呃自然了，为什么这么说呢，当我们有了绝特征的选择依据呢，按照这个特征的选择，我们把重要的特征往前放，先对它加以考察，然后依次再把剩下的特征依次向下排序，也就构成了当前所谓的决策树模型啊。

这第一个问题啊，顺带着有了以后，第二个问题也就解决了，那第三个问题呢，嗯是需要对我们的决策树进行一个修剪，或者叫做减脂，为什么要这样做，因为上一次课的时候，我们也讲到了。

就是说我当我们进行这个模型生成以后，会发现某些模型会出现所谓的什么现象，过拟合现象是因为当前这个模型太复杂了，我们不得不在模型生成的过程当中，对当前这个模型加以控制，使得它不那么的复杂对吧。

来减少或者避免所谓的过拟合现象，所以说以上三部分啊，三个步骤就是我们在决策树模型当中，非常重要的三步，第一步特征选择，第二步决策树的生成，第三步决策树的修剪，那我们依次啊把这三部分别来进行介绍。

那第一步就是作为特征选择，所谓的特征选择啊，在于选取对于训练数据集具有分类能力的特征，刚才哈大家可以看到了，不同的人对特征的重要性，其实意见是不统一的是吧，根据你不同的生活的经历对吧。

你的认知判断是不一样的，那这个时候我们需要定义一个，大家都能够接受的啊，或者大家都能够普遍理解的这么一个重要性，排序的一个依据，那什么呢，就下面给出一个数学项，数学上的一个工具叫做信息增益。

那么这个概念之前呢需要补充一个基础内容，就是所谓的熵的概念上非常重要啊，商，呃熵这个概念呢源自于这个热力学第二定律，当然今天我们不是讲物理，那么这个概念呢引入到了信息论当中。

用来表示随机变量的不确定性的一个度量啊，再重复一遍啊，熵这个概念啊，商这个量在信息学里面或者信息论里面，它表示的是随机变量不确定性的一个度量啊，不确定性越大，这个熵就越大，不确定性越小，这个熵就越小啊。

就这么一个物理量，那么它的定义形式是这么来说的，假设X是一个具有有限个值的离散随机变量，X啊是一个具有有限个值的离散随机变量，那么它的概率呢被定义为P，X等于XI的时候的概率值为pi啊，这个时候呢。

我会引出今天这个就是我们课程当中啊，另外一个问题啊，就是我们怎么样去理解一些，数学公式和数学符号的问题啊，那么怎么去理解这里的X这个，离散值的随机变量，那么又怎么去理解，当这个X等于小X的时候。

它的概率等于pi这个含义，这个时候啊，我们可以找一些我们实际生活当中，可参考的一些实例加以一个对应说明啊，比如说现在这个X，你可以把它想象成是一枚骰子啊，一枚具有六个面的骰子，每一个面都有相应的点数。

那么既然是一枚骰子，我们知道抛骰子可能会出现六种不同的情况，根据它的点数的不同来加以区别，那这个时候的小X所对应的就是，每一点朝上的一种情况，我们知道掷骰子吗是吧，你随便一扔六个六个面。

不一定哪个面随机的朝上，那么朝上的那一面的骰子的点数就被定义为xi，那么这个地方的X等于XI，很显然就被我们的实际情况啊，一种对应就是我们随机进行骰子扔出去，扔色子，它等于某一面朝上啊。

就被定义为X等于xi，那这个时候的P代表的是出现当前这种情况的，概率值是多少，我们知道哈，一般的情况，因为正经的骰子是不是叫正经骰子，就是我抛之前那六个面啊，我知道他没有经过任何的处理。

那每一个面朝上的概率都相同，那这个时候它被扔出去之后，所产生的某一面朝上的概率，就被定义为X等于XIPX等于XI，那它等于多少呢，在刚才扔骰子那个例子里面，很显然等于多少，1/6对吧，1/6。

但是呢这是在刚才说过啊，这是在六面每一面朝上的概率相等的情况下，它等于1/6，往往我们也知道，很多的时候嗯会对骰子做一些手脚，使得某些点数出现的概率增大，某些点数出现的概率减小。

那这个时候很显然就这里的pi，那对应的每一个骰子，每一个朝上的那种情况不同的时候，那个概率值可能就会发生变化，对吧，这是所以说你会发现看到这一条数学公式以后，你反应过来的就应该是X是一个随机变量。

它可以取很多的随机值，那么取这个随机值的时候啊，所以取得这个随机值的时候，所对应的那个概率我们用PX等于X来表示，那么这个随机值是多少或者概率值是多少，那么对应对应到式子里面。

就是pi小pi来加以表示啊，这就是所谓的这个随机变量X的概率，分布的问题啊，没问题啊，那么有了随机变量X的概率分布以后，我们定义随机变量X的商，那既然是个随机，那既然是个随机变量，那它就有不确定性对吧。

因为随机变量嘛，它可以在它的取值范围当中任意取值，那它就有不确定性，那么这个不确定性啊，随机变量X的不确定性就用他的商来进行度量，那怎么度量呢，看下面HX随机变量X的商用HX来表示。

也可以用hp来表示啊，这个都可以是形式上的一种变化，那具体的等于什么，具体的等于负的SUMI从一到N，这里的N对应的就是当前这个随机变量，可取的啊，所有的取值情况啊，所有的可能取值情况。

如果是刚才那个那个那个骰子的话，那这里的N就等于什么，N就等于六对吧，N就等于六，那么求和公式里面是pi每一种啊，每一种情况的概率乘以log，pi进行一个累加去赋值，用来表示当前随机变量的商啊。

它的不确定性，那至于这个公式是怎么来的，是在我们的信息论里面有讨论，有兴趣的同学可以去自己看一下，我们今天在这里就不进行推导了啊，你就知道随机变量X，它的商就用后面这个公式来计算。

其中求和的范围是从一到所有的随机变量，可能的取值，然后求和公式里面的P取值为相对应的，每一种情况的概率值，后面是log pi啊，这是它的熵的一个定义，那么商的定义有了商的定义以后呢，我们需要分析一下。

这个商到底是一种什么样的情况，然后呢通过下面的推导啊，我们可以看到这个商的取值范围非常有意思，我们画这么一个坐标系啊，横轴呢是这个零到P纵轴是零到hp，那么我们知道一个概率的取值范围。

无非就是从1_{0对吧，因为概率的取值嘛，我们只是概率规定就是从0}1，然后呢这个它的最大值呢我们可以计算出来啊，是烙文啊，烙纹我们假设最大值log在这，那么这个时候呢我们可以绘制出哈。

可以绘制出一个曲线，就是关于hp的曲线，大体上是等于这样一种情况啊，大体上等于这么一种情况，那么下面就有一个问题，什么问题呢，我们看看他为什么要长这样啊，为什么是这种状态好吧，那好了，你看一下啊。

取零和一，刚才我们这个例子里面是抛色子，骰子有六个面啊，不太好分析，我们同样把骰子换成硬币啊，硬币就只有两个面了是吧，硬币就只有两个面了，那么如果我们考察一枚硬币的话。

你会发现它无非就是正面朝上或者反面朝上，那么问一下大家，当我们有一枚硬币啊，当我没硬，有一枚硬币，普通硬币随机向外扔的时候，只有两种情况，正面和反面朝上，那这个时候每一面朝上的概率。

大约应该是1/2是吧，大约应该是1/2，但是如果我有这么一枚非常特殊的硬币，什么硬币呢，就这枚硬币它怎么扔，总是正面朝上，怎么让总是正正面朝上，那大家想一下这两种情况，不同的硬币他们的商谁大谁小。

哪两种硬币啊，第一种硬币随机扔啊，扔出去以后随机出现正反面，另外一枚硬币呢扔出去以后，每次扔都是正面朝上，那么这个地方如果我们用套用这个熵值，我们不需要进行计算啊，我们不去计算呃，主观的去判断一下。

我们也可以知道，那每每一面都是正面朝上的那枚硬币的商，不要忘了，商是来度量混乱或者度量不确定性的一个值，那么既然它每一面朝上，每一面都是正面朝上，很显然它的熵值应该是最小的啊，商是用来度量不确定性的。

既然你每一面总是正面朝上，那它就是确定的值，所以它的熵值就是零，同样如果这枚骰子或或者这枚硬币怎么扔，都是反面朝上，同样他也是确定的，所以它的伤值也为零，那么这个时候看中间这个值，什么值。

当这枚硬币扔出去以后，我事先是不知道正面还是反面朝上的时候，那这个时候很显然它的不确定性是最大的对吧，你不知道扔出去以后，你才知道扔之前你是完全不知道的，所以这个时候他去到一个最大值啊，商的最大值。

所以说啊我们可以看到这个图总比公式哈，容易理解啊，当我们进行这个随机变量计算的过程当中，你会发现怎么去理解商它是不确定性的，度量好不确定性，什么叫不确定性，就是你扔出去之前对他的认识是怎么样的。

如果这枚硬币你百分之百的可以肯定扔出去，总是正面朝上的，升值一定是零确定性的，如果你扔之前什么都不对，他完全不了解，那这个时候的熵值就是最大值，好像这是关于熵值的一个介绍哈。

那商还不是最有用的一个这个呃概念，我们下面会介绍另外一个概念，称之为条件上啊，条件上什么叫条件上，我们首先看一下，假设随机变量X和Y两个随机变量了，两个随机变量，他们有联合概率分布啊，有联合概率分布啊。

我们先不管它的联合概率分布值是多少，也就是说意味着这两个随机变量，它们彼此之间是有关联的，那么看下面我们定义这两个随机变量，它的什么随机变量X给定条件之下，随机变量Y的一个所谓的条件上，条件上注意啊。

条件上讲的是两个随机变量，并且是在其中的一个随机变量，X被以知的条件之下，另外一个随机变量的商啊被称之为条件上，它的定义是下面这个形式，SUMI从一到N还是你随机变量可能取值，在各种情况。

然后呢是pi乘以一个三，X等于XI被确定以后，Y的条件上的和pi的里程的一个结果的累加，这就是所谓的条件上呃，条件上是个什么东西啊，首先我们还是举个例子啊，还是举一个例子，你是两个随机变量啊。

你是两个随机变量，是其中的一个随机变量被取，当然因为这两个随机变量是是可以构建，联合概率的，所以这两个随机变量很显然是有关联的，还是有关系的是吧，其中的一个随机变量被确定了以后。

另外一个随机变量的商称之为是条件上啊，举个例子啊，还是那样，比如说迎面走来两个人啊，迎面走过来两个人，你对这两个人完全不认识啊，从来没见过这两个人，那当然你对当前这两个人的不确定性，是非常大的啊。

所以说你会发现这个时候嗯，伤是最大的一种情况，就是两个人你完全不认识是吧，换一种情况，比如说迎面过来两个人，其中一个人你完全不认识啊，你不认识他，第一次见啊，平生第一次见，但是呢你会发现另外一个人啊。

和他紧挨着一块过来的，另外一个人是你的朋友啊，是你的好朋友，铁哥们儿，那这个时候你是不是就天然的，对另外一个人的这种认识就应该是加深了，而加深了这个原因，就是因为两个随机变量当中的另外一个。

你对他是了解的，这就解释了条件上的一个一个一个一个，理解方向，就是你怎么去理解条件上，条件上是在两个有关联的随机变量当中的，其中一个被确定的条件之下，对另外一个随机变量的不确定性的一个度量啊。

这被称之为是条件上，好吧好了，回过头来看一下手头上有两个工具了，一个工具啊，是商商呢度量是一个随机变量的不确定性啊，就是这个这个你就可以认为对面来了一个人啊，陌生人你对他来说完全没概念是吧，然后呢。

哎条件上说的是，迎面过来两个人当中有一个你认识还很熟，那么这个时候呢就被称之为条件上好了，下面变一个魔术，那么大家想一下，由熵值和条件商他们的差值得到的这个结果啊，差值得到的这个结果。

你认为是一个什么样的含义，一个好像是随机变量，就还是那个人啊，第一次来的时候是个陌生人，你完全不认识他啊，就他一个人来了，又走了一会儿呢，哎他和你的朋友一块来了，那这个时候你是不是天生的。

应该对他的判断发生了变化对吧，第一次来的时候，他就是个陌生人嘛，我根本不认识他啊，可能下辈子不见了，那么第二次来的时候，哎他和我哥们一块过来的诶，这人嗯，我就应该对他有一个重新的认识和判断是吧。

他八成应该问题不大对吧，那再举个例子啊，比如说啊，比如说这个什么哎你对这个人啊，这个这个这个人完全不了解是吧，第一次见不认识啊，但是呢你发现突然发现哎，这哥们和特朗普是朋友，完了啊。

这这人也也也靠谱不到哪去是吧，他居然和和川普是朋友对吧，也就是说哈当我们发现啊，当我们发现随机变量被另外一个随机变量，确定以后所带来的这个熵值以后，你会发现由原熵值减去这个所谓的条件熵值。

是不是就是因为这个随机变量X的确定以后，所带来的信息的确定性的那一部分，我再重复一遍啊，熵是用来确度量不确定性的啊，一个随机变量的不确定性放在这个地方啊，就是这个单独这个随机变量的不确定性，就放在这。

另外一个呢是在两个随机变量当中的，其中一个被确定以后，随机变量的不确定性的一个度量，那么我们很就直观的会得到这么一个结论，当另外一个随机变量被确定以后啊，随机变量的熵的值。

应该要比单独的一个随机变量的熵值要小，因为它毕竟是确定了一些信息，它的不确定性减少了一部分，那这个时候减少了多少，我们就用元随机变量的熵值减去一个条件熵值，那这个时候的这个差值。

就是由这个被确定以后的随机变量啊，它所带来的信息的增加，那这被称之为信息增益，信息增益，这是一个非常重要的概念，看下面那么特征的信息增益啊，我们拿到数据集以后，有若干个特征或者若干个属性。

就像刚才我那张表格里面是吧，我们有ABCD啊，有若干个属性，那这ABCD若干个属性，对于当前这个数据表格T来说，它所带来的信息有多少，我们用信息增益这个量来加以度量。

那所谓的特征A对训练数据集D的信息增益，就下面这个我们用JDA来表示，其中它的值是先计算整个数据表的熵值啊，先拿到整个数据表，我先计算一下熵值，用整个数据表的熵值减去数据表格当中的。

A这个特征被确定以后，数据表的条件上啊，这是第二部分，然后呢做一个差值，那这个时候就像刚才我们所举的那个例子一样，那这个差值的大小就是由这个特征，A被确定了以后来带来的信息量的一个改变。

我们把它称之为信息的增益，那么当然我们可以计算GDA，同样我们可以计算GDB对吧，B这个特征同样我们还可以计算GDCGDD，当然这里的D不太一样吧，一个是数据表，另外一个特征，有了这些计算结果以后。

我们只需要怎么样，刚才我们回到刚才特征选择那个问题里面，特征选择告诉我们，我们需要确定的是特征的一个排序规则，哪个特征最重要，哪一个特征最重要，我只需要考察一下这个特征。

为当前数据表所带来的信息增益的大小，就可以了，你带来的信息增益大，那你的特征最重要，你的你的信息增益小，你的特征就往后排，所以根据信息增益的大小，我们就可以决定我们特征的重要性，有了特征的重要性以后。

就像刚才那个例子里面，你就可以拿着那个特征，重要性最大的就是信息增益最大的那个特征，作为我的第一个特征选择，然后再用第二个，第三个，第四个依次向下，那么我的决策树是不是也就构建出来了啊。

这就是哈第一个问题，关于特征选择的问题啊，特别是关于这个嗯这个这个概念的理解好吧，具体的计算一会我会给出具体的计算方法，关于这个概念的理解，我希望大家能够现在还能够掌握一下好吧。

信息增益等于熵减去条件熵，熵值是整个数据表上的不确定性，条件熵是在一个特征被确定以后，数据表的不确定性，那差值就是由这个特征所带来的信息的变化，这个信息的变化量称之为是信息增益，如果没有问题的话。

我们就继续往下，那么这个信息增益呢，我们需要把它计算出来对吧，你需要给出一个计算逻辑啊，把这个信息增益计算出来，那么很显然这个信息增益的计算就分三步啊，把大象放冰箱，分几步也分三步，开开冰箱门。

把大象塞进去，关上冰箱门是吧，信息增益的计算也是分三步，哪三步，第一步计算信息计算商啊，计算数据一地的商，第二步计算条件上，第三步算差值就完了，那么很显然我们把它拆成三步，第一步计算商。

第二步计算条件上，第三步算信息增值，看下商品谁的商，数据表格D的商啊，数据表格D的商，第二步条件上谁的条件上特征ab确定以后，数据表的条件上啊，数据表的条件上，第三步做差法做做做。

做差值就没什么太大问题了好吧，那么为了计算这三个量，我们需要引入一些符号，这些符号呢可能嗯需要仔细的去分析一下好吧，需要仔细的去分析一下，看第一个我们假设数据集为D啊，数据集为D，这个没什么可说的。

数据及D的模啊，数据集D的模表示为其样本的容量，就是样本的个数啊，就是有多少条记录，有多少条记录，我们加上两个杠啊，用他的模来表示，那么看下面是K个类别K啊，注意既然是K的类别CK我问一下。

这是对谁说的，是对我们的标记那一列来说的是吧，以刚才那个数据表格为例，现在表格里面我们知道是否放贷，是我们的标记列，那里面有几个类别，有两个类别啊，当然如果是多分类的话，就有多个类别。

所以这个地方假设是有K个类别，是有大K个类别，那么每一个类别呢我们用K来表示啊，在刚才那个例子里面，K等于一，K等于二，因为分两个类别是吧，那么下面看下面，那么CK的绝对值啊。

CK的绝对值用来表示属于类别，CK的样本的个数，我们刚才例子里面有两类啊，Yes or no，贷款还是不贷款，那么很显然这两类啊，每一类元素的个数，我都可以用C1的元素的个数。

和C2元素的个数来分别表示两个不同的类别，那看下面，如果SUK从一到大K啊，那么CK的绝对值就应该等于D，这是显而易见的，因为我们知道我们的标记一共就分两类啊，Yes or no，那如果我们把这两类啊。

把根据类别，标签分的这两种不同的类别的元素进行相加，那么相加之后的结果，一定是等于整个数据表的元素的个数，这是我的表，我们现在只讨论那个标记那一列标记，那一列标记，这一列里面有yes有NO对吧。

标记里面有yes有NO，我把零的元素找出来，加一块再把一的元素找出来加一块，然后再把零和一的加起来找出来加一块，是不是还是就是整个数据表的整个的元素个数，对吧。

所以说啊这个式子说的是sum k从一到大K，然后4K的绝对值不是4K的模，就等于D的模，好吧，看下面假设特征A注意啊，现在我们的视角放到了特征A上去了，就是那个特征A，在特征A当中有N个不同的特征取值。

注意啊，这是那个特征A有N个不同的特征取值，还是要举一个例子，按照刚才我们所说的，假设这个A2等于年龄好吧，为什么是选这个年龄这个特征呢，是因为刚才那个例子里面年龄分了青年，老年和中年啊。

所以它的取值比较多一些哈，丰富一些，那么很显然它的取值A1就等于青年，A2就等于中年A3就等于什么老年，所以它是一个A1A2A三的这么一个特征A，那么我们也可以根据A这个特征。

将数据及D划分为N个子集对吧，刚才所说的青年青年，青年中年中年中年老年老年老年，那么很显然，我可以通过特征A也把整个数据集，分成了若干个子集，那么其中DI表示的就是我们每一个取值，所对应的样本的个数。

这是青年的，这是中年的，这是老年的，这是刚才说的第一第二第三的模，然后很显然显示什么，如果I从一到N啊，你A不是有三个特征吗，你的年龄不是有三个取值取值范围吗，那么从我把你的三个取值范围里面。

青年的元素的个数加上中年元素的个数，再加上老年元素的个数，一定也等于整个数据表里面元素的个数，就像刚才我们看的，这是青年的元素个数，这是中年的元素个数，这是最后老年元素个数加一块。

肯定还是整个数据表里面元素的个数，注意哈，注意以上这个K啊，这个K是根据我们的标记列来进行分析的，这里的DI啊，这里的跟A的特征A的不同的，取值是以我特征A的视角来加油，区别的好吧。

然后呢分的时候呢当然会有一些要求，什么要求呢，其中的子集DI当中，其中子集DI当中，再根据那个CK的样本集合划分为DIK，看下面将我们子级DI，比如说我以清我以这个青年为例啊，这以青年为例。

根据青年当中再根据那个类别标签啊，根据那个标签列再进一步的划分为DK，什么意思啊，比如说在这里啊，我们以青年为例，即使是青年这一类特征A的一部分的取值，我们根据它的标签，进一步的还可以把它划分为。

青年里面有贷款的和青年里面没有贷款的对吧，这就是根据DI当中属于K的，把它定义为DIK那么青年可以这样做，中年也可以这样做，那么中年这个人群里面，我也是可以根据中年里面他的标签列。

分为中年里面贷款的和中年里面不贷款的，老年也可以这样来做，那么可以看下面DIK等于什么，DIK就等于我是某一个年龄上进行的取值，并且和我贷款的一种情况的取值的一个交集，比如说刚才那个例子。

那么D青年有贷款，说的就是我青年人里面有贷款的那部分数据，那么老年无贷款，就是老年人当中没有贷款的那部分数据啊，用DK来表示，那么DK的膜就被称之为是DK，这部分数据里面样本的个数，那么看下面啊。

这个是看一下sam k sum i，然后是DK等于多少，把这个式子写到一边去，Sam k sami，然后是DK等于多少，3K意味着我要把所有的类别标签加一个，加对吧，这是放在外面里面呢是SAI。

我要根据特征A的不同的取值进行累加，然后呢是DIKDIK是在特征A里面啊，那个年龄里面取得某一种取值，并且他的放贷情况等于某一种放贷情况以后，所构成的数据子集，然后把所有的这样的数据子集。

通通的都加一块儿，那等于什么，等于一不等于一，不应该等于整个数据表里面元素的个数，DIKIKI是什么，I是我特征A的某一个取值，它可能是青年中年，老年K呢是我们标签的某一个取值，它可以是贷款。

也可以是不贷款，DIK说的就是青年里面不贷款的，青年里面贷款的老年里面不贷款的，老年里面贷款的中年里面不贷款的，中年里面贷款的，我们把它加一块儿啊，都加起来，应该构成的是我们整个数据集D的元素的个数。

注意啊，注意啊，这里是D的模，而不是D是吧，而不是D好了，有了以上的分析以后啊，作为基础，那我们就可以进行信息增益的计算了，怎么算呢，所有的信息，所有的这个计算都是基于概率上的计算，所以就是一些比值啊。

就是一些比值问题，你需要分析清楚到底是谁比谁好吧，看下面信息增益算法啊，信息增益算法输入的是什么，输入的是数据及D啊，就是那张数据表格，以及你要针对某一个特征来完成，信息增益的计算。

因为我们这个信息增益，是要计算后边那个条件商的，条件商是两个随机变量的熵值是吧，那你需要给你说这两个随机变量，一个是数据1D另外一个特征A那么输出什么，输出一输出的是当特征A被确定以后。

训练数据及D的信息增益，就是那个JDA啊，就是就是输出这么个结果，那么三步刚才说过哪三步，第一步首先计算数据及D的伤啊，首先计算数据及D的商熵值怎么算，看上面熵值的计算在这儿嗯啊这个也可以啊。

升值的计算在这，现在呢只不过我现在需要计算的是D的三，D的商呢等于后面这个式子，在这个式子里面我们需要知道那么几个量，第一个我需要知道这个N的多少啊，嗯在刚才那个呃数据表格里面啊，在数据那个表格里面。

我们很显然我们知道我们这个贷款还是不贷款，只有几种情况，只有两种情况，所以他是从1~2啊，这个没问题的，我还需要知道啊，贷款和不贷款的概率是多少啊，贷款的概率是多少，不贷款的概率是多少，我需要知道。

另外呢log pi这个求一下就可以了，所以很显然核心的要点就变成了，这个pi怎么去求，就是我们无非就是贷款贷款吗，当贷款的时候，这个pi值是多少，当不贷款的时候，这个pi值多少，我只要算出来就可以了。

现在问一下大家，那这个怎么去求，不要忘了你现在有那张数据表格了，那个呃标签那一列你是知道的是吧，你最直接的办法你就去找一下找一下，因为我们知道数据集里面元素的个数，我是知道的，就是D的模。

那它当然是分模是吧，当时分母问题是分子是多少，分子也很好啊，你数一下，你数一下里面，比如说我看一下贷款的百分，贷款的这个呃嗯概率我数一下里面已有多少个，是不是就可以啊，这一个两个三个四个哎。

那不就是四比上D的模吗，那么四是从哪儿来的，四不就是属于贷款里面元素的个数吗，所以说啊你只需要统计一下整个数据表格里面，不同的标签里面元素的占比是不是就可以了，看下面，所以数据1D的商HD等于什么。

等于负的SUMK，从一到大K，这里的K就是我们的标签的可能的取值范围，标签哈，标签就是分类啊，你有几个类别，在我们的数据表格里面是两个类别，所以这个地方是小K从1~2啊，你根据你不同的类别。

那我如果有大K的类别，那就是从一到大K，然后看下面那个pi不同的类别的那个概率值，那个pi怎么去算，分母就是我整个数据表格里面元素的个数，所以是D的模啊，这没问题，分母是没问题的，分子是多少。

分子就是每一个类别里面元素的个数对吧，我查一下所有表格里面，所有被贷款的人有多少个除以，整个表格不就是贷款的人的概率值了吗，那不贷款的呢，我查一下不贷款的那个人是不是就可以了啊，然后后面log2啊。

后面的这个概率值是相等的相同的，所以说啊，HD的计算，相对来说相对来说是比较容易理解的啊，容易理解的麻烦麻烦在第二步那个条件上，为什么呢，如果从根据它的定义哈，你会发现你碰到了一个麻烦，什么麻烦呢。

首先呃条件上是有两个随机变量，一个是X1个是Y对吧，然后呢这里是I从一到N，当然这里的N也是，根据我们的类别标签就可以了，所以这个pi还是比较容易去处理的，麻烦就麻烦在后面这一部分，后面这一部分。

其实你会发现它在形式上也是一个账户，也是一个条件上，只不过是X等于XI被确定以后，整个数据集上的调这个商值的计算，那这个时候呢我们就需要换不同的视角啊，就从刚才那个D的那个呃这个呃商的计算。

转变成这个条件上的计算，你看下面啊，通过这个公式我们再去理解一下，看看这里哈，还是那样是在特征ab确定以后，数据及D的上等于什么，按照刚才的公式等于sum i从一到N啊，SUI从一到N进行一个呃求和。

然后呢它是一个pi，这里的这个pi啊，注意这里的pi还是根据我们这个数据集DI，根据那个特征A啊，根据那个特征A的不同的取值，我们刚才说到过A的不同的特征取值有N种，所以呢这里是到N啊，所以这里是到N。

然后每一种里面特征A里面的每一个取值，我需要计算一下它的元素，这个元素个数，比如说青年有多少个，中年有多少个，老年有多少个作为分子分母呢，就是我们元素的总个数啊。

元素的总个数这一部分哈理解起来问题还不大，麻烦就麻烦了，后面这个式子，后面这个式子这个HDI他给的是HD了，HD刚才说过，这是我们整个数据集的商，这个HTI是个什么东西啊，有同学能理解一下吗。

如果说HD是整个数据表的商，那么HDI是不是就是数据表格当中，DI这部分子集的商，为什么是这部分子集呢，我们刚才讲到过，我们现在是以特征A的视角来看条件上的啊，如果说我们的这个熵值就这里的商。

我们是以这个标签的视角，那这个条件上我们就是以特征的视角去看，既然我的特征也可以把我的数据集，分成了不同的部分，那每一部分里面的熵值，是不是就是在特征A被确定了以后，我计算的整个数据表格的上市。

而这个特征ab确定了以后的这个熵值，是不是就是这里的什么所谓的条件上，明白什么意思了吧，所以说这个地方最难理解的啊，就就就在这啊，你怎么去理解这个这个这个HDI啊，HD是整个数据集的差。

HDI是在我这个数据集里面特征ab确定了以后，分成的那些特征子集里面的商，那这部分就可以作为我在Y在X等于小xi以后，被确定以后的那个商值的一个结果，好吧，那理解了这个HDI以后。

问题是我需要把这个HDI算出来，HDI它也是个商值，按照我们的熵值计算是不是就可以了，按照刚才我们商值计算无就是I从一到N，然后呢是分子比上一个分母，然后一个log分子比上一个分母，分母很清楚啊。

分母是谁，因为我们现在已经落脚到这个特征ab，确定以后的这个数据子集里面啊，数据子集里面，所以分母就变成了这个数据子集里面的，元素的个数好吧，然后呢分子是谁，分子就变成了我在这个分子集当中。

我再根据我的特征来进行划分的，这个子集里面的元素的个数作为我当前的分子，所以说啊看一下公式，这个地方呢，从理解到计算都不是特别的容易理解，所以你就要好好看一下公式啊，就放在这儿，首先上面这一步。

前面这部分照抄，往下照抄，所以说你会发现这一部分是完全一样的，那么很显然这一部分在这，因为它是个商值，所以负号在这啊，负号提前了，那么下面这一部分式子我们可以看到啊，下面这部分式子可以看到分子。

就像刚才我们说的，因为他计算的是一个数据子集的伤啊，数据子集的商，所以分母就是零，就是那个数据子集里面的元素个数，所以这个DI的元素个数，分子是谁，分子是在这个数据子集里面，我根据我的特征。

我们我根据我的那个标签来统计的，我元素的个数，就像刚才啊，我先在青年人里面，假设我青年人有十个人啊，那这个十就作为我的分母，在这十个人里面有两个人，我有贷款，有八个人没有贷款。

所以这个时候他根据不同的贷款情况，我就得到了在青年人啊，这个年龄特征为青年的这个数据子集里面，那么它的概率分别是2/10和8/10，能明白什么意思吧，就是说这个条件商的计算，当我限定了特征A以后。

他的那个熵值HDI，要在局部的数据子集里面进行完成，而这个数据子集里面的熵值计算，其实和整个数据集上的熵值，计算的原理是完全一样的，只不过你的计算的对象不一样了，以前数据集的熵值。

是以整个数据集作为你的计算对象，所以你的分母是数据集里面的元素个数，分子是当前这个类别里面元素的总个数，到了这个数据子集里面，我只看这个数据子集有多少个元素，所以分母是数据子集里面元素的个数。

而分子是在这个数据子集里面，再根据标签的值来划分的，那个数据子集的数据子集里面的元素的个数，好吧，这样的话我们的条件商也就被计算完成了，有了条件商以后，信息增益就比较容易计算了。

信息增益直接用熵值减去条件就可以了，好吧，这一部分的计算呢呃你需要完成的第一步，对这些符号的理解，怎么理解这一堆符号，这一堆符号如果你理解完了，后面这个信息增益计算的过程，其实是能够理解的好吧。

再给大家说一下，在那边就是李航老师的统计学习方法里面，在这一部分里面有一个例子啊，就是计算的过程怎么去计算熵值，怎么去计算条件熵值都有例子啊，回去以后非常建议大家把那个例子看一遍，因为有具体的数值。

你知道算的过程是怎么样的，好了嗯，信息增益呢，可以作为我们这个进行特征选择的一个依据，然后呢根据不同的这个特征选择依据，我们还可以构建所谓的信息增益比啊，构建所谓的信息增益比。

信息增益比呢我们是在信息增益的基础上，你可以看一下它的分子就是我们的信息增益啊，分子就是我们的信息增益，然后分母呢是在某一个特征下面，我计算整个数据集的上，刚才的信息增益的计算过程里面的这个商。

我们是根据标签那一列来完成计算的，所以说你会发现这是sum，可以从1~8K是根据标签那一列来完成的，在进行信息增益比的计算，分母的那里面那个商是在特征A被确定之后啊，它的整个数据集上的一个商值计算。

只是哈在整个的计算过程当中，我们的那个还是那样，我们的视角发生了变化啊，数据集上我们还是以标记啊，数据集上的商我们还是以标记列来计算的，特征A的特征A上的数据集，它的商我们是以特征A这一列来进行计算的。

那这样的话有了这个分母以后，熵值比上啊，条件这个信息增益比上这个熵值，我们构建的就是所谓的信息增益比啊，信息增益和信息增益比，都是可以作为我们特征选择的依据的啊，那好了，有了这两个特征选择依据以后。

我们看看第二个问题，怎么去构建生成数啊，生成当前的决策树这个过程啊，其实就相对比较简单了，看第一步啊，id3算法啊，id3算法，id3算法的输入，首先我们需要数据集D啊，数据集D第二部有特征集合A啊。

第二部有特征集合A你得告诉我那个特征是谁，你还需要给我一个阈值啊，给我个阈值，因为我们在计算过程当中啊，有的时候嗯，可以提前结束我的整个的生成过程啊，达到阈值的时候，我就可以结束算法了啊，你给我阈值。

然后输出我们的决策树T输出当前这棵决策树，那么第一步第一步，若D当中所有的实例都属于同一个类别，什么意思啊，比如说还是我们的那张学生表，还是我们的学生表，哎我们这个班级太优秀了。

所有班级同学都是三个学生，既然都是三好学生，那么根据当前这张表格，学出来的那棵决策树就长什么样，只有一个节点，为什么只有一个节点，因为我这个数据表格里面告诉我们，所有的学生都是三好学生。

也就意味着当转过一个新的同学来以后，八成不是八成百分之百，他就是一个什么，就是一个三好学生对吧，他他没得跑，所以啊这是一种特殊情况，第一步先处理一种特殊情况，如果数据记得D。

数据D当中所有的实例都同属于同一个类别，那么这个时候T就为一个单节点数啊，因为所有的情况都是一个啊，都能就是那一个类别，并将类K作为该节点类别的标记输出就可以了，输出一个一就OK了，你不管你来谁。

XYZ随便来，来了以后就多给你个三好学生啊，给你个好人卡啊，因为我的数据集数据集就是这样的，我们没办法啊，这是一种情况，算法从这个地方就可以结束了，返回T算法就终止了，当然这是一种极端情况。

那么继续往下看，第二种情况，若A等于空集，A是什么，A是我们的特征集合，意味着当前这张数据表也很也很特殊，长什么样呢，它只有标记那一列，没特征，没特征列啊，只有标系列，如果没有标系列，那怎么办。

如果没有我们的这个这个属性啊，如果我没有没有我们的属性点怎么办，那么也很好办怎么办，你看看它只有标记，那既然只有标记，就是只有一堆零幺值呗，我是不是只要从这些零幺值上去学习就可以了。

那意味着如果我构建一个新的模型，这个新的模型对新的数据来了，三个同学XYZ是吧，这三个同学到到我班级里来了，那怎么办，那给不给他这个好人卡，给不给他这个三好学生，我是不是只需要统计一下当前这个班级里面。

学生的这个三好学生，非三好学生的一个占比，我只比如说啊当天这个班级里面留有个人，一个同学不是三好学生，那59个都是三好学生，那很显然大概率上，当前新来的同学也应该是个三好学生，是这样吧。

所以说你会发现当我们特征没有的时候啊，当没有特征的时候，那这个时候也是一颗单节点数啊，也是一棵单节点数，并且将D当中实力最大的那个特征，就刚才我们所说的60人里面，59个都是三好学生。

那OK那你还是三好学生呗，只是根据这个标记的比例大小来分配，当前这个单节点数的输出标记，同样也返回当前这棵树T，那这个时候就有同学会疑问什么样的表啊，如果说刚才那种情况啊，标记只有一种啊。

标记都有一个值，我还能够忍了是吧，就就就特殊吗，那什么时候这张表格里面没有特征，只有标记啊，这种情况不可能出现，这种时候啊是不太可能出现，但是呢是我们算法过程当中生成的一种负结果，一会儿我们再看它好吧。

你先知道怎么处理就可以了，就出现这种情况，我只需要统计一下标签里面的占比大的那一列，作为我当前的节点输出就可以了，至于怎么出现这种情况，一会我们去看看一下第三步，否则那这个时候我们就在集合A当中啊。

就在我的特征集合A当中选择一个特征，来计算当前特征下的信息增益，信息登记计算每一个特征啊，如果不是这两种情况，那意味着我这个表格里面有若干个特征，有A1A2A3A4，一直到AG是吧。

那么每一个特征都计算一下他的信息增益，那么这些信息增益里面总有一个最大的，我们把它挑出来，跳出这个最大的来以后，你看啊，我在所有的特征上来计算信息增益，找一下那个最大的信息增益所对应的那个特征。

把它找出来，找出来这个特征以后，这个特征对我当前表格里面标签的结果，起到了一个最重要的作用，就像刚才我们那个例子里面，我们通过信息增益的计算发现，哎确实是有没有房子啊，这个特征它的信息增益最大。

那么下面怎么办，那么下面我们就看再判断一下，我得到的这个信息增益的大小，是不是超过了阈值，如果说这个信息增益的大小没有阈值大，意味着我所有的特征里面，即使是信息增益最大值的那个特征。

他的信息增益也远小于我的阈值的话，那这个时候我也没有必要再对我们的决策树加，油生成了，为什么，因为那个信息增益最大的，都已经小于我的这个阈值了，意味着这个信息增益有，但是呢起的作用并不大。

所以这个时候也把当前的数设置为单节点数，并且将D当中，实力量最大的那个K作为当前节点的标记，同样也是一种特殊情况，同样V怎么出现这种情况，一会我们再看再往下再，否则对于AG当中的每一个可能的取值。

就像刚才那样，我找到了那个房子作为最信息增益，信息增益最大的特征，并且这个特征的信息增益还大于了我的阈值，那这个时候我根据当前这个特征的，每一个可能的取值，比如就像刚才那个房子啊。

那个房子所有的可能的取值，房子有两种取值，有房子和没房子，根据他的所有取值，依据每一个特征的取值，将我们的数据及D分为不同的子集啊，就像刚才说开发现房子那一列最重要的特征，根据房子这一列。

把所有的没房子的和有房子分别挑出来，分成两个子集，就是意味着我通过房子分成了两种情况，有和没有是吧，有和没有，怎么办，分成两个子集以后，将DI当中就是你不就分成两个子集吗。

每一个子集里面实力最大的那个类别标记，作为我当前的类别标记输出，你分成了有房子和没房子，有房子里面啊，有房子这个子集里面他的标签的占比最大的，作为当前有房子的标签输出，没有房子的这个子集里面。

根据标签计算出没，有房子里面这个占比最大的啊，标签的情况作为当前节点的输出，大概率上我们可以知道，那不是大概率肯定是这样啊，就是有房子里面，他的这个标签对应的一般就是一没房子，这个一般就是零。

因为他的信息增益最大，如果他都不啊，没有这种规律性的话，我觉得这棵树也就不用再生成了是吧，所以说这个时候哎这个时候输出的是一，这里输出的是零，好了，这样的话你会发现啊，根据这个特征。

房子我就把当前的数变成了，一个有两个节点的不同的一种情况，那下面怎么办，对第二个子节点以DI为训练集，以A减AG为特征集，也就是说哈，我在没有房子和有房子这两个子集当中啊。

有房子和没有房子这两个子集当中，再根据A减AG，既然我这个房子特征已经用过了，我就不能再用了是吧，我在其他的特征里面，比如说我在那个年龄工作和信贷里面，再去分别计算他们的信息增益，再找到一个。

比如说是工作在每一个子集里面，再根据工作那个特征进行一个划分，有工作的，没工作的，有工作的，没工作的再进行划分来，是不是就变成这样了，这个特征就是根据工作，那这个特征是根据我们的房子那个。

然后工作这个就不能要了，然后再根据什么，比如说在在这两个里面找一个信息增益大的，比如说是那个信贷好吧，有了信贷以后是在每一个子集里面再分，根据信贷那个情况再分成两个，分成两个，分成两个，分成两个。

然后哎，再往下分好了，现在这个特征也不用了，最后剩下的是谁，最后剩下的是那个年龄，那个是吧，剩下年龄那个好了，这个时候你会发现，如果年龄这个也化，生完了以后就会出现哪种情况。

是不是就会出现刚才我们所说的那个特征，没有的情况，这个时候如果还有数据集的话，我就根据刚才所说的，我就只能根据里面元素里面的，标签的占比的多少来加以分类了，好吧，这就是哈D3的生成算法。

我们回过头来再看一下，第一步哈，第一步，如果你只有一个类别，那是最简单的情况对吧，你通通的只有一个类别，那我就把它拉到一个节点里面去，以当前节点类别的输出为整个绝对数的输出，如果你的特征A是个空集。

意味着你没有特征，那我只需要根据你的标签里面的占比多少啊，最大占比，那个标签作为当前的类别输出也就可以了，否则的话，那这个时候我需要计算每一个特征的，信息增益啊，每一个特征在整个数据集上的信息增益。

我找那个信息增益最大的作为当前的特征，这个特征如果还小于一直，我也不需要再分裂了啊，不需要再分裂了，我只需要把当前类别最大的，作为当前的决策数输出就可以了，否则那我根据当前信息增益最大的特征。

的不同的取值，把数据集分成若干个数据子集，每一个数据子集以其中类别标记，最大的类别作为当前的类别标记，然后在数据子集当中啊，数据子集当中减去，或者除去我已经使用过的特征，在此特征集上递归的调用1~5部。

产生进一步的产生指数，进一步的产生指数，直到什么时候，直到上述的退出条件里面，某一个条件成立，算法就可以结束了，就是所谓的id3算法，id3算法的核心，id3算法的核心。

是使用信息增益作为特征选择的依据，那么C4。5算法的核心是以信息增益比，看到了吗，是以信息增益比作为特征选择的核心，其他的完全一样啊，D3和C4。5就一点不同，哪不同。

就是他们在进行特征选择的时候的依据不一样，D3是信息增益，C4。5是信息增益比，好吧，其实你会发现这两个算法介绍一个，另外一个就换一下特征选择依据就可以了，那么大家看看关于这个生成部分有什么问题吗。

啊如果没有问题的话，我们继续啊，那么第三个问题呢，就是所谓的决策树的减脂的过程啊，呃大家体会一下啊，大家体会一下，按照刚才所介绍的决策树的，啊为什么信息增益用那个log2是吧啊还是那样。

这是信息论里面的内容，这个我们就不做过多的介绍了好吧，其实呃不是必须的啊，换成自然底数也可以啊，这嗯但是换成自然底数，你需要做相应的处理，你这个你记住吧，当一个公式把它记住就可以了好吧。

如果你有这个就是好奇心，你可以找一本信息论里的书再看一下，经验伤什么意思，嗯我们前面讲到过啊，就是在我们的嗯就是啊语境里面啊，在我们当前语境里面，所谓的经验就是数据。

所谓的经验上就是在数据集上所学到的商，所以说你会发现就是已知数据集以后，你算的那个熵值的计算过程就是所谓的经验上，所以你会发现它使用的都是一些都是什么，都是那个比值作为我们的概率值。

但是我们知道这个比值作为概率值，只能是在已知数据集的基础上才能完成的对吧，我知道你的问题是在这里好吧，为什么将实例数据啊多数表决吧，这是一种很自然的情况，就是将我们实力最大的类别作为标记。

而不是按比例打标记，因为按照最大类别做标记的话，其实就是按照比例做标记啊，你比如说我当前这个数据子集里面十个人啊，十个数据八个是贷款，两个是不贷款，那贷款那肯定是8/10，不贷款，那肯定是2/10对吧。

我只能是通过这个比值，通过这个频率值来表示它的概率值，当然嗯我们只能这样来做是吧，那么下一步就是我们看一下决策树的减脂过程，那这个时候，我们为了避免产生所谓的过敏和现象，需要对生成的过程当中。

那种嗯生成的这种区域，复杂的模型的这么一种趋势加以限制，那这个时候怎么进行限制，我们看一下，在决策树的，简直上是通过极小化决策树的整体，损失函数或者代价函数来完成，这其实和我们的策略是一样的。

只不过你需要去定义这里的损失函数，或者代价函数的问题，那么看一下怎么去定义哈，设数T的叶子节点的个数为T的摩尔啊，这是一个很好的一个策略，就在于当我们有了决策树模型以后，怎么去表征当前决策树的复杂程度。

当然我们有多种视角，比如说我可以根据当前决策树的深度，来表示当前决策树的复杂程度，当然我们知道数越深特别复杂对吧，单根节点是最简单的一个决策树，这是一种策略，那么另外一种策略我还可以根据什么。

还可以根据叶子节点的个数，叶子节点的个数越多，当前的模型越复杂，这也是一种方式，那现在呢我们是以叶子节点的个数，作为我们当前的这种考察的一个方向，所以他是叶子节点的个数是作为我们树的模。

那么T呢是树T的叶子节点啊，所有的叶子节点，该叶子节点呢我们用NT的样本点来构成啊，该叶子节点当中呢有NT的样本点，其中K类的样本点个数有NTKNTK，注意即使是在叶子节点上啊，即使是在叶子节点上。

也并不意味着当前这个节点里面，所有的样本点都是同一个类别，也会出现有不同类别的情况，最极端的一种情况，刚才我们已经说到过啊，就是什么就是一上来没有特征，只有元素啊，只有标签。

而标签里面很显然并不是只有一种类别，有贷款的，也有不贷款的，那这个时候我们根据当前节点里面啊，不同的标签的情况，再把它们进行划分啊，再进行划分，其中K类的样本点有NTK不同的类别。

标签分别为NT1NT二一直到NTK，注意就是不同的叶子节点里面是用T来表示，叶子节点里面的不同的类别，用K来表示，所以NTK代表的是T的叶子里面，取得标签值为K的元素的个数。

那么其中HTT啊是在叶子节点上的经验商啊，或者叶子节点上的数据商，或者简单点说就是叶子节点上的熵值，那这个时候我们的损失函数计算为C阿尔法T，C阿尔法T为SUT01，从一到大T的绝对值，刚才我们说过。

我们是以叶子节点的视角考察一下，当前这棵决策树里面每一枚叶子啊，每一枚叶子从一那个叶子开始，一直到最后那一片叶子，每一个叶子里面我都需要计算一下，当前叶子上的伤，再乘以这个叶子里面元素的个数用来表征的。

你你想一下，把这个值加一块，是不是，就很很很类似于我们前面讲到过的，什么经验风险，数据集上的经验风险，你看看N是对应的是一个叶子里面元素的个数，元素越多，模型越复杂，然后呢再乘以乘以什么。

乘以每一个叶子上的熵值啊，要混乱，然后它的熵值就越大是吧，越混乱，杀人又越大，那这个时候，我们把它标记为当前的一部分的损失，损失这一部分的损失很明显啊，很明显会趋于使得我的这个什么。

使得我这个模型越来越复杂啊，不管是从叶子节点的个数的角度上，还是从熵值的大小的角度上，都会趋于使得我的模型越来越复杂，这很显然会出现所谓的过拟合现象，那怎么办，看后面的项，刚才我们讨论过啊。

刚才我们讨论过，我们可以用数当中，叶子节点的个数来表示当前数的复杂程度，那换句话说，当我们把阿尔法T的模放在这个地方的时候，你会发现，当我在追求所谓的损失最小化的时候，损失最小化。

那意味着我的模型越复杂，因为只有模型越复杂了，我的分类才越准确，分类越准确，才能使我的损失越小，但是当我们的模型越复杂的时候，当我们模型越复杂的时候，那造成的一个情况就在于模型越来越复杂。

这个时候我必须要，我必须要通过我的这个正则化项，来进行一个对抗，模型越来越复杂，那这个时候我们的这个正德画像，起到了对抗的作用，就越来越强，用来限制或者抑制我前面的这一部分的，这种模型，复杂的这种趋势。

所以说这个C阿尔法T哈，C阿尔法T就表明了我当前的决策树的损失，那好了，有了这个损失函数以后，有了损失函数以后，下面的工作就是我需要把它计算出来，然后在整个的生成过程当中，使我们的损失最小就可以了。

看下面怎么计算核心哈，这里的这里的核心T的模数一下，这棵树里面一个个数就可以了，NT每一个叶子里面元素的个数也就可以了，麻烦就麻烦这里的HTT啊，每一个叶子上的损，每一个叶子上的伤怎么去算。

看下面HTT呢其实也是一个熵的计算过程啊，就是个商的计算过程，所以是sum k这没什么问题，就还是我们的K的类别，因为我们是在每一个叶子里面，所以它的分子是每一个叶子里面的，不同的类别的元素的个数。

比上当前叶子里面元素的个数，后面log是一样的值啊，这个地方非常类似哈，非常类似，我们在那个条件上的那部分的计算里面，其实也是一样的，因为你是在当前页的里面，所以你的分子是叶子里面。

每一个类别的标记的元素个数，分母是叶子里面元素的个数，这样的话我们整个的这个呃CT值啊，就可以把它计算出来，怎么去用是个麻烦事啊，怎么去用呃，有按照我们之前的策略，你直接使这个损失函数最小化就可以了。

那这个但是这个时候你会发现，只有牵扯到另外一个问题，什么问题啊，那天我曾经说过一个观点，什么观点，有些模型是没参数的，马上有同学啊，就反应过来呀，还有没参数的模型吗，是有没参数的模型的。

其中最典型的代表啊，我们可以把数模型认为是一种没有参数的模型，至于怎么定义这棵树是最关键的一个问题，特别是后面我们讲到这个xd boss的时候，你会发现，他原来真的是一个。

在定义形式上是不带参数的一个模型，当然形式是形式，计算是计算是吧，但是你会发现这个时候因为他没有参数，所以你没有办法对参数进行求导啊，因为我们知道损失函数最大的作用就是，有了损失函数。

我只需要求偏导数等于零，找到损失函数有极小值就可以了，但是这个时候呢怎么去用，看下在进行减脂的过程当中，我们是这样来用的，就是既然我们有了一个损失函数啊，既然我们有了一个损失函数。

那这个损失函数就就就可以作为啊，我来比较两棵决策树的优劣的一个指标啊，哪棵树好，哪棵树不好啊，我看下损失是不是就可以了，损失小的当然就是一个所谓的好数，损失大的当然就是一棵不好的树，那有了这个指标以后。

我们在生成完成以后，我们看一下能不能把一些节点或者某一些呃，不重要的节点在整个决策树上去掉，怎么去看下面树的减值算法，输入一棵树T啊，输入一棵树T意味着当前这棵树已经生成了，然后呢给我一个参数阿尔法。

当然这个参数阿尔法，就和我们前面那个学习率是一样的，一个类似的一个数值，用来决定了你这个正则画像的一个重要性程度，输出的是修剪之后的一个指数啊，T阿尔法在阿尔法的这个已知的条件之下。

第一步计算每一个节点的事啊，你不是有一棵树了吗对吧，不管长什么样吧，反正这个数你就有了，然后呢你需要计算每一个节点，当然这里每一个节点不只是叶子节点，每一个节点的熵值。

然后呢递归的从树的叶子节点向上回缩，我通过叶子节点加以判断，判断什么呢，设一组叶节点，回缩到其父节点之前与之后的整体数，分别为tb与ta tb啊，是之前的那个数，TA呢是回缩到父节点以后的数。

比如说这是原数T我们呢通过分析会发现，可以把这两个节点回溯到它的父节点当中去啊，就从原数变成了这样的一个新的数，然后呢我我把原数叫做T，新数呢叫做ta，我分别计算一下。

CTB就是原数的损失函数和心数的损失函数，如果什么，如果原数的损失函数大于了新数的损失函数，意味着什么，意味着原数的损失大，新数的损失小，那你说你要哪个数，当然我要损失小的这棵树嘛，好了。

这样的话我们就从原数进化到这棵树，那有了这棵树以后怎么办，再从所有的叶子节点依次来进行上述的过程，然后比如说哎，我还可以把它回溯到根节点里面去，就只有单根节点的数，我再来比较一下，它就变成了tb。

它就变成了TA再计算一下他俩的损失情况，如果还是这样的话，那我就把它剪成这样了，继续剪成这个样子，所以说这就是减脂算法的一个基本策略，他的思路就在于，我需要给出一个损失函数的一个定义，有了损失函数以后。

我只需要从根节点开始，每一个根节点开始依次向上回缩啊，在回收的过程当中，依次判断新数和呃，心数和元素的损失值的大小，如果出现了原数比比心数的损失要大，那我就进化成一棵新树，反之那我就不用停止。

我就可以停止整个算法，数据很好了好吧，这就是减脂过程，看有什么问题吗，第五步，认证算法的第五步，当然啊这个地方是根据这个特征的，每一个可能的取值对吧，生成过程当中，我比如我选择了这个特征A。

这个特征A的不同的取值，来对我当前的数据集进行一个子集的划分，你当前这个特征A能取三个值，你就把当前的数据集分成三三份，三个子集，如果你特征A能取五个值，那就把当前数据集分成五个子集啊。

这个地方是根据特征A的不同的取值，来进行划分的，Ok，好那这样的话我就能介绍完了，D3C4。5的特征，选择决策树生成和数的减值，那么前面我们介绍过这两类数啊，基本上都是做我们的分类问题啊。

解决的都是分类问题，所以说你会发现它的计算，都是以类别标签的频率值，来表示它的概率值是吧，所以一般都是分，就是离散情况下我们才可以这样做，既然是离散情况，它的取值就有限，所以一般都是一个所谓的分类啊。

分类问题，那怎么去解决连续值啊，怎么解决这个回归问题，是我们下边卡的数需要解决的cut数啊，他名字就是所谓的回归和分类数啊，你就说cut数既可以做回归，也可以做分类。

当然分类一会儿我们看看它是怎么去做的，核心我们看看他怎么做回归的啊，在介绍这个回归生成树之前呢，就是非常重要的一个概念啊，就是树的核心到底是什么，就是什么才是一棵树模型啊，什么才是一棵树模型。

按照刚才我们的分析，你会发现我们是不断的从根节点开始，不断的去找特征是吧，从根节点不断的去找特征，找到一个特征进行一个子集划分，找到一个特征进行一个子集划分，直到我们不再进行子集划分为止。

如果我们以刚才的数据表格为例，我们知道一个数据表格，对应的就是一个N维的一个特征空间，里面的一个数据情况，注意啊，因为我们知道每一个记录，它都是一个X11X12。2点，一直到X1N对吧。

当然这里是N个特征，那这个时候我们知道哈，在这个N个特征里面的一条记录，对应的就是我们N维空间里面的一个点，那么这个点一定要落到我们决策树当中的，某一个叶子节点当中去，而这个叶子是怎么来的。

而这个叶子是从根节点开始，根据不同的特征划分落到的一个小区域，换句话说啊，直接说结论，你会发现我们的决策树啊，我们的决策树就是不断的从我们的输入空间，还记得那个花X吗，他是个N维的空间是吧。

从那个花X那个N维的空间，根据每每一个特征的不同的取值，对这个词，对这个输入空间进行一个子空间的划分，你看看根据A这个特征划分成了两个空间对吧，然后再根据B这个特征，比如说划分成三个空间。

根据不同的特征，把每一个，把某一个输入空间划分成了若干个子空间，然后呢，然后到了叶子节点的时候，给出当前这个叶子节点所对应的标签，给出个值就可以了，你你你是一个三好学生，就给你个一，你不是个三好学生。

就给你个零，所以说简单点说啊，简单点说决策树模型啊，就是对我们输入空间的一个划分，以及每一个子空间的输出值，这就是决策树，所以说啊你看它的定义形式来看这个样啊，一个回归书上。

就是将我们的输入空间划分成若干个单元，以及每一个单元上都对应的有一个输出值，假设已将我们的输入空间划分成了M个单元，R 1r2，一直到RM并且在每一个单元上啊，每一个单元RM上都有一个固定的输出值cm。

于是回归数可以表示成下面这个形式长什么样，FX啊，就是一棵树，就是个模型啊，以后我们就不再强调了这个模型是吧，只不过这个模型呢被定义为这么一种形状啊，它就是科学的数啊，为什么是科学的数呢。

看一下M从一到大M，你无非就是把你的输入空间划分为了，这M个子空间，我当前X属于哪一个输出，你看你给我一个X，我要给你个输出吗，我这个输出到底是几，我需要遍历一下我当前这M个子空间。

看一下我这个X到底是哪一个子空间，里面的元素，如果我能够判断我这个X属于R1，那我只需要把R1这个子空间所对应的，那个C1作为我当前的输出，是不是就可以了，看一下啊，怎么做的。

你先有X首先需要判断我是属于哪个子空间，找到它所对应的子空间以后，再去把这个子空间里面的输出找出来，作为我当前输入的输出就OK了，这就是决策树啊啊没有结构了，已经已经我我们已经忽略它的树形结构。

而只是把它还原成它最本质的那一点，就是在整个输入空间上的输出呃，这个输入空间上的划分，以及每一个子空间的输出，这种决策树啊，希望大家能够尽快的能够认识到这个层面上啊，这才是数决策树的最本质的核心。

那为什么下面这个形式注意啊，我们刚才这个过程当中，有一个遍历所有子空间的过程，因为他需要看一下它到底属于哪一个子空间，从R1R2对吧，一直点点点一直到RM，我需要看一下你到底属于哪一个子空间。

那怎么去便利，那这个时候就需要使用到的求和计算，这个地方再强调一点，就是说sum求和啊，就是求和过程我们是一个计算过程，1+2加3+4等等等等，一直往下加，所以说在这个求和过程当中，我就可以去判断一下。

当前我这个X是否属于某一个子空间，怎么去判断，根据后面这个东西I，关于这个I我不知道大家还有没有印象，I是什么东西啊，I是一个所谓的指示函数，我们上一节课讲到过，指示函数的作用是如果后面的条件成立。

返回一，否则返回零，看一下后面这个条件，X属于RM，也就意味着如果后面这个条件成立，意味着当前的输入X是2M，这个空间里面那个有一个元素，那么只是函数就返回一，返回一，再和前面这个cm cm所对应的。

就是RM空间的输出值，那么返回的是不是就是当前X所属于的，那个子空间的对应输出，有同学就会问你这个sum求和，你不光是需要判断一下是不是属于RM，你还需要判断一下是不是RM加一，RM加二。

那这个时候没问题啊，因为我们能够明确的知道X如果属于RM，就一定不会属于其他的子空间，既然不会属于其他的子空间，那么意味着这个条件就不成立，这个条件不成立，只是函数返回的就是零，零乘以任何值都是零。

所以即使是进行了一个累加，也仅仅是在X属于某一个子空间的时候，他的条件成立，返回一对应的返回这个子空间的输出cm，而在其他的空间，因为X不属于对应的其他空间，所以这个条件就不成立。

只是函数返回零零乘以任何值都是零，在累加过程当中不受影响，所以说你会发现这个FX它很技巧性的用到了，这个sum求和这个过程，以及这里的指数函数的判断组合起来，其实就是在整个的子空间序列当中。

一次的进行判断，判断一下是不是X属于某一个子空间，如果是，那输出它对应的输出，如果不是返回零，不影响整个的求和过程，然后当然如果当前这个不是我还求和吗，这个过程还需要看下一个值，再看下一个值。

再看下一个值，因为我们这个X1般，如果是在我们的输入空间里面的话，它一定属于某一个子空间，一旦找到了子空间，返回一下子空间的对应输出就可以了，所以说啊这个最重要啊。

这个东西我觉得在chart boost里面，对于模型的这个理解是非常关键的一个理解，好吧，那好了，有了这个链接以后呢，下面我们需要完成回归操作，那怎么去完成回归操作，如果我们拿到了一个数据及D。

它是X一Y1XNYN，那我们知道这个地方麻烦就麻烦了，他的这个假设数轴啊，它是个连续输出，它是个实质输出，不像我们的离散输出，我们可以把它发生对吧，分成有限个子空间。

那这个时候每一个子空间有一个取值就可以了，麻烦就麻烦，他是个连续空间，那这个时候怎么办，也也也也不是问题啊，我们只需要把这些子空间的这空间大小小一点，就可以了是吧，那怎么办，看下面我们是这样来做的哈。

我们可以选择D这个变量，XG以及其取值，S作为切分点和切分变量和切分点，并定义两个区间或者两个区域，你你确实数无非就是子空间的划分，以及每一个空间上给我一个值吗，首先我们先解决这个空间怎么划分的问题。

那怎么划分呢，我试着去找到一个所谓的空间划分啊，所谓的空间划分无非就是特征上的选择，以及特征上的不同的取值来进行空间的划分，比如说我们以特征A为例是吧，比如说我们以年龄为例，年龄分为中年青年，中年老年。

我就可以把特按照特征A划分成三个子集，有同学说那是离散特征，你这里可是连续特征啊，无所谓啊无所谓啊，我因为我们拿到的数据集是有限的，既然你的数据集是有限的，那意味着即使是连续值也是有限。

个连续值其实还是在数据集上加以学习，所以说这个地方，它即使是一个连续值的回归问题，其实因为你拿到的数据集是有限的，所以其实还是一个分类，只不过这个分类的区间，会发的会划分得非常的小而已。

那么怎么去找这个特征以及切分节点，因为我们知道任意一个特征我都可以做选择，任意一个特征里面的任意的取值，我也都可以做选择，那看下面我不管我选择的是哪个特征，也不管我选择的特征是哪个取值，我总可以。

根据某一个特征以及某一个特征的取值，将我们的区域，将我们的输入空间划成两部分，哪两部分小于这个在这个特征值上，小于这个值的，以及在这个特征值上大于这个值的啊，你会发现比如说还有那个例子。

我们以那个什么吧，比如说还是以年龄吧好吧，还是年龄，比如说青年对吧，我根据青还是年年龄，在年龄这个特征里面，我还是根据不同的取值，比如说青年，我可以把青年比青年年龄小的一部分，比青年年龄大的一部分。

是不是可以啊，所以说你会发现我不管是根据哪一个特征，还是根据哪一个特征上的取值，我都可以把输入空间划分成两个部分，有了这两个子空间以后，那怎么办，我就找所有可以把这些空。

把这个空间分成两部分的所有的特征，以及所有的特征可能取值上去找，计算下面这个量哪个量呢，看下面，既然我们把这个按照当前这个特征，把输入空间化成了两部分，那么在这划成了两部分，比如说就像刚才那个数轴。

这是根据那个那个年龄就是青年，那就是大于青年的，这是不是大于青年的，这是小于青年的，好吧，那好了，那无非所有的数据都落在这个区间上，不管你是到底是青年，中年还是老年，反正都是在这个区间上。

那这个时候怎么办，我在每一个可能的切分点上我都这样划分，每一个切分点上都这样划分，是不是可以划分完以后怎么办，划分完了以后，我需要把所有左边这些和所有右边这一些的值，累加起来累加，不是把原值累加。

累加的是什么，累加的是每一个值和这个子空间里面的，那个平均值的差值进行累加啊，比如说我的我左边这个子空间的平均值在这，右边这个子空间的平均值在这儿，我把上面这些所有的点距离，这个平均值的距离都计算出来。

并且累加到一块，你看是把平均值的距离进行累加啊，进行累加累加在一块怎么办，我使得这两个P区间里面所有点距离，这个平均值的和尽可能的怎么样小，你说这个怎么尽可能小，因为我们知道，因为我们刚才说过。

我们这个切分点以及切分点上取值，是有是有多个的，你当前这个计算出来以后，当前这种划分我计算出来一个Y1减C1，加上一个Y2减C2，我其他的切分点也可以分别计算，计算出来之后，我尽可能的小，最小的那个。

作为我当前的特征以及特征上的取值，也就是说刚才那个例子里面年龄是一个特征，年龄里面的青年啊也是一个特征里面的取值，根据这个特征以及这个特征取值，我们把整个数据集划分成两部分。

分别计算每一部分的平均值的和的最小值，然后再根据刚才说过那个那个信贷情况，信贷情况良好，中差也可以根据不同的信贷情况的，不同的取值依据，划分成两个空间，来不断地计算。

每一个空间里面的元素和平均值的这个差值，尽可能的小，来比较一下这两个值谁更小谁更小，就找到一个更小的特征以及特征的取值，最小的那个作为我的切分特征以及特征取值，然后呢特征划分完了以后。

我需要根据特征上计算它的输出，特征上的输出就很简单了，当你有了这个区间划分以后，我只需要根据这个特征区间里面所有的元素，求一下平均值，作为我当前空间的出输出就可以了，这就是哈。

其实你可以看到说是解决的回归问题不错，但是在解决回归问题的过程当中，因为你这个里面那个D数据集是有限个元素，所以也是一个便利的过程啊，也是有一个遍历过程，只不过这个遍历过程里面，特别是这个S的选择。

这个S很显然可能是个小数啊，就是个实数啊，小数啊一般是小数，不是实数，实数里面可能无理数，这个地方不会出现啊，所以这个地方比如说以身高身高里面一，因为我们知道身高这个特征很显然是个连续值。

在测量过程当中，因为比如说我们班级里面有60个同学啊，可能从1米92对吧，一直到1米68，1米1，1米58是吧，所以这个过程里面即使是连续值，它也是一个若有有有数据量的一个连续值，所以这个时候你会发现。

我根即使是根据这个身高，我也可以选择一个其中的某一个位置，作为我两个区域划分的最优的切分位置，好吧，那这样的话完成的就是所谓的，回归问题的一个分析，那么其过程啊，在这个地方核心的就是怎么找这个特征以及。

特征上的分分类点，其实就是一个便利过程啊，找到这个便利过程就一分为二，那一分为二之后怎么办，那么在剩下的那个子空间分成了两部分，子空间里面，再一次按照我们刚才的过程依次查找就可以了。

OK这是关于这个cut数的回归问题，那cut树的生成怎么做，cut是数字生成，一句话，cad数数字生成的特征，选择使用的是基尼指数作为特征，选择依据基尼指数的计算，在这它的生成过程和C4。5那个id3。

算法是一样的啊，生成过程是完全一样的，就是把D3和C4。5里面的信息增益和，信息增益比用基于指数来替代，基于指数也是我们信息论里面的一个概念，它也可以用来表示我们关于这个信息的一个呃。

不确定性的一个度量啊，他们其实和那个信息增益啊，是有这个数值上的关系的，这个地方就不展开讲了，你知道就可以了好吧，那这样的话以上啊，以上我们就把，决策树这一部分的原理部分介绍完了。

那么下面呢同样去准备了一个实例，这个实例呢，正好也是我们这个教材里面的那个例子啊，数据集这个地方都已经给大家了啊，感兴趣的同学啊，你可以回去以后做一遍啊，你可以试一下怎么去计算。

当然这个地方也不做过多的要求啊，因为这个呃我后面会讲CK那里面的包的调用，其实参数才是重要的，你怎么去理解那一堆参数啊，有兴趣的同学你可以自己看一下，好吧，判这不还有什么问题吗，那没有问题的话。

我们就继续好吧，嗯决策树这部分完成以后呢，我们今天还有下面一个任务，就是关于这个集成方法，看一下，OK嗯集成方法，什么叫集成方法呢，简单点说哦，中国有一句这个俗语叫做三个臭皮匠，顶个诸葛亮。

集成方法就是这么回事儿，当我们构建模型的时候，你会发现模型的性能有的好有的差，那怎么去提升模型的性能，就是一个很关键的问题，那怎么去提升呢，有很多种不同的策略，其中有一种策略呢非常简单。

就是既然某一个模型，它的性能并不是那么的突出，那我是不是可以通过集成若干个模型，来提升集成之后的模型的性能呢，这就是boosting方法最简单的一个思路，那其实是可以的，就是我们通过集成不同的模型啊。

把这些性能可能普遍不好的模型集成起来，使大家能够趋近于性能非常好的那个模型，结果啊，这是boosting方法的最基本的一个思路，那怎么去做两方面，一方面呢就是所谓的加法模型。

第二方面呢就是所谓的前项分布算法，我们分别来看一下，第一步先看一下加法模型，什么是加法模型，加法模型呢是这么一类模型，它的形式呢是这样说的，FX等于sum，从一到大M贝塔m bx伽马M。

分别介绍一下其中每一个符号的含义，其中这里的bx伽马M把它称之为是奇函数啊，基础的意思啊，基奇函数奇函数呢其实就像刚才我们所说的，这里的bx伽马M，就是那一个一个的性能不太好的模型啊。

奇函数或者G模型啊，其中的伽马M呢为G模型或者奇函数的参数啊，嗯就是那些臭皮匠啊，这是那些臭皮匠，然后呢贝塔贝塔M是奇函数的系数，因为这些奇函数各有优劣是吧，有的好有的差。

那么为那些好的你就多做一些贡献，给你一个较大的全职，那些性能差的啊，你就你你又能干点干点不能干算了是吧，所以就给出一个小的贝塔值，所以这里的贝塔为奇函数的系数，为奇函数的系数。

那这样的话每一个奇函数都给你一个系数，然后把这一堆奇函数加起来构成FMFX，这是刚才我们所说的，都是方法最简单的一个思路，非常简单粗暴，把所有的奇函数统统的加一块，就构成了FX，那好了。

加法模型其实很简单，问题在于它的优化过程是比较麻烦的，为什么这么说呢，看下面假设我们有数据集xi一直到YI是吧，这是XN啊，xi i从一到N以及损失函数，我们都已经知道了啊，这里的损失函数呢。

八成是可以使用我们的平方损失啊，使用我们的平方损失，这个时候我们的学习目标变成了什么呢，变成了在数据集上，我们要分别计算我们的实际输出，YI和我们的模型输出FX的损失进行一个累加，然后当然取不取平均啊。

其实对结果并不影响是吧，这个时候使得我们的经验风险最小的那个模型，作为我当前的最优模型，注意啊，这一坨就是那个FX是吧，这是我们的基本策略，但麻烦就麻烦了，因为它是一个加法模型。

它不是单一的模型的一个优化问题，而是你加起来那一堆模型的整体的优化问题，所以一般情况下呢，这个整体优化呢是比较复杂的，我们一般完成不了，那怎么办，看下面我们就变一个策略，就是所谓的前项分布算法，前项。

前线分布算法，它是求解这一优化问题的一个思路，因为学习的是加法模型啊，因为你学习的是加法模型，我可以从前向后，每一步只学习或者只优化一个奇函数及其系数，逐步逼近我的优化目标。

那这个呢我就可以减少或者简化，我的优化复杂度，那具体的怎么去做，具体的就是我每步只需要优化如下的损失函数，哪个呢，sum从一到N还是在数据集上，然后呢，L我的损失计算是YI还是我的实际输出呃。

我的这个实际输出，我的预测输出不再是这对整个的sum求求优化，因为不太好求，我只求其中的一部sub的一个，其中的一步做优化啊，这就是我们的这个前线分布算法，当然有同学会问，很显然你这个单个基函数的优化。

和你加法模型的优化优化目标是不一样的，那怎么去解决他们两个之间的冲突呢，来看下面好了，前面分布算法呢进一步的解释为，输入是我们的数据集，损失函数以及我们的奇函数的集合，都是已知的啊。

就那一堆臭皮匠先放在那是吧，怎么用，我没有在说，那输出呢就输出我们整个的加法模型，看下面第一步，初始化F0X等于零，还是那个老问题，F0X等于零，也是一个模型，一上来我把所有的输入都映射成零。

虽然这个模型性能很差，差就差了，但是它不妨碍它也是个模型做基础是吧，那继续往下，对于M等于一二，一直到大M我们分别来优化下面这个问题，什么问题呢，看下面SAMI从一到N还是在数据集上。

然后L是我们的损失计算，在损失计算过程当中，YI作为实际输出没问题，看一下预测输出是个什么东西，是预测输出是FM减1X，那我当前这一步很显然是FMX，我在进行DFMFMX的优化的过程当中。

我需要使用到过FM减1X，也就是说，我需要使用到上一次优化结果的那个函数，有同学说上一次那个优化结果的函数是谁啊，那很显然上一次那个优化结果，那个函数的优化过程我现在不知道，我先不管他是谁好吧。

那么它的优化过程，很显然使用到了上一个优化函数的，上一个优化函数，那上一个优化函数的上一个优化函数又是谁呢，一直往回找找找找，找到头，找到头是谁，找到头就是这个F0X等于零。

也就是说我从F0X等于零开始，我要这是零啊，我先要计算F1X在F1X优化过程当中，我使用到了那个FM减一，这时候1-1不就等于零了吗，对吧，所以说不要担心那个FM减一在哪，既然你有了F0以后。

FM减一就有了好吧，在我上一次那个优化结果的基础上，再加上一个贝塔b xi伽马，什么意思呢，上一次那个优化目标性能，我不管它是好还是不好啊，不管他性能怎么样，我当前这个优化目标要和它做加法。

意味着我在他的基础上再要学习一个新的模型，这个新的模型和我上一部的那个模型做融合，以后，作为我当前这一步的模型和我的实际输出，做算式计算，使得我的损失尽可能小，以以确定我当前的最优模型，那么大家想一下。

想当然的，我们就可以认为当前学习的这个子模型以后，所构成的那个加法模型，就要比单纯的那个FM减1X的性能，要怎么样就好了，好怎么体现出来的，好就体现在我当前哎往前又增加了一个子模型。

而这个子模型是在原来这个模型的基础上，又使得数据集上的损失极小化，以后所学到的这个子模型，那很显显而易见的是，它比那个FM减一要好，这还没完啊，因为我们知道这是个迭代过程，有了FMX以后。

我在学习的一定是FM加1X，而那个时候我同样是在整个数据集上计算损失，实际，喂喂可以吗，可以了吗，OK可能是刚才信号不稳定的事情到哪了啊，那我们把它串一下吧，把它串一下。

可能刚才呃可能会有停顿的地方是吧，哦可可回头看一下加法模型啊，先给加法模型，其实java模型很简单，就是有若干个机模型啊，性能很差，然后呢我我我为每一个机模型呢，再给他一个全职。

然后把这个带全职的G模型呢，一个一个的加起来，就构成了所谓的加法模型，这样的话呢，我们试图通过若干个机模型的性能，来趋近于一个性能更好的模型，那这个时候呢有了这个模型定义以后呢，他的下一个问题就是。

优化过程是一个比较复杂的问题，因为如果你直接对整个加法模型加以优化呢，这个比较困难，因为它这个具体形式是个累加的过程，那这个时候我们做一个所谓的呃，一步一步的去完成它。

这样的话我们采用所谓的前项分布算法啊，就是每一步我只优化其中的一部分啊，这样的话很显然就要比整体的优化，是一个更好的一个策略，那么下面的过程呢看一下，首先呢先给出一个性能很差的F0X等于零。

作为一个基础啊，作为一个极限，有了这个基础以后，每一次我都是在上一次的那个模型基础上，来训练一个得到新的模型，那么怎么体现出来呢，每一次我的学习都是在数据集上进行损失计算。

只不过这次的实际输出和这个预测输出的差值，我是在上一次那个模型的基础上，加上我当前的这个模型来构建一个优化目标，而这个优化目标过程当中需要注意的是，YI是已知的，因为它是数据集里面的值。

FM减1XI也是已知的，有同学说这个FM减1XI怎么是已知的呢，因为你当前优化的是DM是DFMX，在DM部的时候，这个M减1X是上一部的那个模型啊，上一部的模型一定是已知的了，对于当前这一次来说。

所以你会发现在整个的优化目标过程当中，只有这里的贝塔b xi伽马是不知道的，而这就是我们的优化目标，使得这个损失最小的那个贝塔和伽马M，作为我当前模型的参数和它的系数，这是在DM。

那么同样这个需迭代过程要继续下下去，那么下一步一定是FM加1X，那它的优化目标一定是在同样的逻辑里面，是以FMX，因为上一部FMX已经被学出来的对吧，在FM减1X，在FMX已知的条件之下。

再学一个新的模型加到FM上去，那么这就构成了FM加1X，那么同样的道理，FM加二，FM加三一直到F大M，那这个时候你会发现整个的累加完成以后啊，每一步都是学了一个新的子模型。

而学的这些新的子模型的累加的性能，一定要比每一个单个的子模型的性能要好，这是显而易见的，这被称之为是boosting方法啊，boosting方法两部分，加法模型和前项分布算法，加法模型和前向分布算法。

那么你会发现在这个boosting过程里面，关于这里的B就是那个G模型，是没有明确要求的，就是这个机模型啊，只是一个机模型，它到底长什么样，我是不知道的，那这个时候看下面所谓的提升决策数啊。

所谓的提升决策树，就是以决策树作为基模型的提升方法，称之为是提升决策树啊，就是我们把那个G模型啊，以数模型作为基模型，不断的累加决策树模型来构成我们的，据他说这里有个问题，数模型怎么进行累加树啊。

我们知道典型的树形状就就长这样是吧，这些东西怎么能把它加一块，不要忘了这是他的形象啊，或者形式，它的定义是什么呢，看这里，这才是那棵树，还有印象吗，哎不是不是这个多少在哪儿，他在他在这，这才是决策数。

不要忘了我们前面一直在强调什么是决策树，决策树无非就是对输入空间的划分，输入空间的划分以及每一个输入空间上的输出，我把当前的输入空间化成了R这个子集，然后呢每一个子空间上对应有一个输出。

这就构成了一棵决策树，那么这个时候你再想一下，两棵决策树的相加，就变成了两棵决策树的输出，空间的进一步的细分，以及细分之后的输出空间的呃，细分之后的空间的输出对吧，这就是哈怎么去理解决策树的问题啊。

这就是有了决策树的定义形式以后，我们就可以完成，你会发现它是可以进行累加的，那这个时候所谓的提升决策树，就是以决策树作为基模型的加法模型，FM等于sum，从一到大MTX大米M这个时候有同学会问诶。

你前面那个G模型B前面不是还有一个贝塔吗，在这个时候啊，一般情况下，我们认为以决策树啊，以树作为基模型的这个boosting方法，我们就不再对每一棵树给它一个系数了，我们认为所有的决策树都是重要性。

都是相同的，就可以了，省了一个参数的学习啊，省了一个参数的学习，再看下面，既然有了这个以以以树为基模型的，这个嗯加法模型以后，那下面的一个问题，就是对这个加法模型的一个学习，怎么学习，看下面。

嗯嗯提升觉得数同样采用的也是前两分布算法，其实算法过程是一样的好吧，首先也是确定初始提升数F1X等于零，有同学就会困惑，F0X等于零是怎么是棵树吗，也是一棵树，是一个单根节点的树。

所有的输入都映射成零是吧，那DM部的模型是FMX，同样是等于FM减1X，上一部的那个模型加上一棵树啊，加上一棵树，那它的优化目标呢就变成了在数据集上，损失函数的累加，实际输出是YI。

那么模型就变成了FM减1X加上那棵树，作为我DM部的模型这个词，这个时候我们把当前这棵树学出来，就变成了FMX，那么有了FMX，那下一步是FM加一，那这个时候用到的是FMX，所以和加法。

加法模型的前项分布算法过程是完全一样的，只不过它的学习过程里面，把奇函数替换成了我们的数模型而已，那么这个时候你可以看到啊，你可以看到，我们就是给出当前这棵决策树的定义形式，就是输入空间的划分。

以及每一个空间里面的输出，计算过程就是F0X等于零，FMX等于FM减1X加上一个绝对数，通过叠的过程，最终我们学到的是F大MX，把所有的每一步里面的绝对数进行一个累加。

最终得到的就是我们的java模型的结果，这个过程啊我相信应该没有什么太大的问题啊，最后呢有一个非常重要的一个结论，哪个结论呢看这里，因为刚才在学习过程当中，我们一直没有讨论那个损失函数啊。

没有讨论损失函数，我们常用的损失函数啊，就是所谓的平滑损失啊，L实际输出是Y，这里呢预测输出是FX等于Y减去FX的平方，Y减FX的平方，然后呢我们按照我们的损失展开。

因为刚才我们的损失函数啊是LYFM减1X，加上一棵树T是吧，加上一棵树T，这个时候呢，我们把这里的L用我们的平方损失代入，就变成了Y减去FM减1X减去那棵决策树，因为减的和把它拆开之后。

把所有的分量都需要减掉，然后再进行一个平方，从这一步到这一步，就是一个平方损失的一个展开啊，这应该没什么太大问题，展开以后啊，你看看展开以后的这三项，我们分析一下，就像刚才我们得到的结论是一样的。

YI是已知的，YM减1X也是已知的，在当前DM部的模型学习过程当中，只有谁不知道，只有这棵决策树是不知道的，因为我们要学习一个新的模型，在这三项当中有两项是已知项，是不知道。

那我是不是就可以把这两项已知的，先计算出来，先计算出来，用R来表示，用R来表示，整个式子就变成了什么，你看看就变成了，R减去决策树的平方的形式，那这个是形状，你再和原平方损失对应一下，你会发现哎。

这个时候的R是不是就变成了这里的Y，这里的T是不是就变成了这里的FX，换句话说，在前项分布算法的这个学习过程当中，如果我们以平方损失作为损失函数啊，以平方损失作为损失函数展开，我们的展开以后。

你会发现每一次的学习目标，每一次的学习目标变成了什么呢，只是我要学习一棵树而已，你看看你原来是在外上学习一个FX，现在T就是你的学习目标就是这个FX，不同的是在哪儿，不同的发生了变化。

在于你的数据集发生了变化，你不再是在原数据及外上进行一个学习，而是在哪，而是在R上进行一个学习，而是等于什么，看上面，而是等于实际输出Y和上一次那个模型的预测，输出的差值，作为我当前的学习目标R。

这其实就解释了，为什么我们说boosting方法是一个性能，可以趋近于复杂模型的方法的，原因就在于我每一次学习的这个新模型，注意安之类的，T是每一次学习的这个新模型，它学习的对象是非常有针对性的。

就是针对于我实际输出，和我上一次那个模型没学好的那一部分，再去学一个模型，换句话说，我我所有的模型就是该进行X向Y的映射，我在学习过程当中已经有很多的工作，我的钱去工作都已经完成了。

或者前序模型都已经做了，都已经完成了，很好的从一部分X向一部分Y的映射了，我当前要完成的工作，你看我当前这个模型要完成的工作，就是针对我实际输出，和我上一次或者上一轮那个模型没学好的，那部分的学习。

所以你会发现它是非常有针对性的，而我们知道，当我们因为数模型本身的性能其实也不差是吧，只是说他没有那么好而已，如果说你会发现他每一次都是这样去做，其实非常类似于什么，就是我们上学的时候都会有一个错题本。

大家都会有印象是吧，每一次考试的时候，我把那些做错的题目单独拿出来啊，在考试之前做对了的，我就看一眼就可以了，我就有针对性的对那些每一次做错的，或者不对的地方来进一步的加以学习，那你想想，这个时候。

我对你成绩的提升还是有很大帮助的啊，这就是说啊，其实你会发现如果有了这个认识以后，所谓的前项分布算法啊，所谓的前项分布算法就退化成了一个，每一次我只需要学习一个新的决策树的过程，而只是需要做的一点调整。

在于我每一次学习的这棵新的决策树，的数据对象是不一样的，不是每一次都是在外上学习，而是在Y减去我上一轮那个模型之后，没学好的那一部分，作为我的学习目标，每一次我都这样过，每一次上来之后。

我先计算一下Y减去FM减1X剩下的这个差值，没学好的这一步我在学它，然后把学习的一部分的模型，加入到FM减1X里面去，然后再计算Y和FM的差值，我FM加一再针对Y减去FMX的时候的差值，再进行学习。

性能会不断的，你想想那那那那错的部分越来越少，越来越少越来越少，最后不就趋近于性能更好的一个模型了吗，好了这是非常重要的一个结论啊，非常重要的一个结论，而其中这个R被称之为是残差啊。

这里啊当前模型拟合数据的残差被定义为R，就是我们每一次所谓的残差嘛，就剩下的不好的那部分数据，我们每一次学习的仅针对它展开就可以了，GBDT我们放到茶几boss的时候，我们再见，再介绍这一部分呢。

这个和后面有非常强的关联性啊，这个地方先留在这儿啊，其实内容也不多了啊，但是呢也非常重要，我们下次讲到查理boss的时候，我们继续再把它展开好吧，这样的话我们今天的内容，我们就是这些内容呢很多啊。

包括D3C4。5和卡特树的生成啊，啊特征选择以及呃这个减脂啊，下面呢包括我们的这个boosting的，加法模型和前线分布算法，看这部分还有什么问题吗，决策树的回归问题是决策树的回归问题。

已知是个老大难问题，看看决策树的回归，回归回归回OK啊，我们以身高为例啊，举个例子，身高我们知道是个连续值，但是即使是连续值呢，因为你这个地方是数据集，数据集，比如说我们还是这里的N等于60。

我们只有只能采集到60分身高，那参照采集到这里时的身高呢，可能比如说有1。92，我们已预计作为单位啊，1米92，然后1米68，1米73呃，1米811米呃，五九好吧，然后1米77，1米66啊等等等等。

虽然说是连续值哈，没问题啊，他带小数点吗，虽然说是连续值，但是你采集到的也就是60分这样的值，也就采集到60分这样的值，那这个时候呢我们以身高这个特征，在所有的这些值上，我就可以进行60次的一个划分。

怎么划分啊，第一次划分为1。92，作为一个划分位置，把它划分成小于1。92的，和大于1。92的啊，简单点说你比如说你看这个极限值，你飞到哪吧，比如说你化成小于等于1。92的，然后化为成大于1。92的。

这个时候是一种划分，还可以根据1。68，划分成小于等于1。68的，然后大于1。68的，根据1。73，你也可以划分成小于等于1。73的，大于1。73的，你会发现啊，在这一个特征上，我就可以进行60次划分。

这身高特征，假设我还有一个特征，身高还有体重，体重，比如说我们以这个啊公斤啊，公斤的话，比如说呃60kg啊，80kg嗯，72。5kg嗯，100。6kg，然后55kg等等等等等，同样的道理，同样的道理。

我们即使是离散值啊，即即使是连续值，因为它是取值集合有限，所以可以根据不同的取值，可以把我们的取值空间进行划分，这就解释了第一个问题，就是关于这里的特征以及特征上的取值的问题，任意一个特征。

即使你是一个连续值，因为它的取值有限，所以就可以把当前的特征化成两部分，一个小小的一个大于一个小雨的，一个大于一个小雨的一个大雨，这是空间划分的问题，空间划分完了以后，下面的问题就是空间的输出的问题。

就是说比如说我们以身高这个特征为例，比如说我们以1米73这个身高为例，我们就可以把特征划分为小于等于1米73的，和大于1米73的，这里面是若干个取值对吧，比如说这是1米92。

那个1米92在这1米83的二，1米77在这，这是那个1米73，那好了，那么既然我们划分成了两个子空间，我们前面讲到过，决策树，无非就是输入空间的划分以及划分空间的输出，问题。

就在于我怎么去确定这个空间的输出的问题，最简单的方法就是我们把落在这个空间里面，所有的值加起来取平均值，假设啊求个平均值是1米7零，那这个时候你会发现我根据身高这个特征，根据1。

73这个这个这个什么这个呃，取值划分成了两个空间，小于1。73的，得到一个1。70，大于1。73的，比如说是1。82，好吧嗯，这个时候我们就有了空间的划分，以及空间所对应的一个输出。

我们身高上课也是这样做，注意啊，这是身高上的一个1米73的位置，我所有的点是不是都可以这样做，然后呢这只是在身高上，我体重上是不是也可以这样来做啊，这样的话你会发现我在所有的身高上啊。

所有的特征上都可以这样，按照每一个特征值来进行两个空间的划分，那好了，既然我可以这样做，我就把这样的所有的情况都考虑出来啊，都做一遍，都做完一遍以后呢，因为我们知道每一个空间都有一个特征，空间取值。

而每一个空间里面又是说看个点，那我再计算一下所有可能情况里面，所有这些空间里面的点距离，这个输出值的差值，差点使得这个差值算出来以后，我去找所有那些差值里面最小的那个。

那么它所对应的特征以及特征上的那个取值，就作为这里的JS，这就是完成了一步一步特征的选择，以及特征上的取值的选择，那下面怎么办，其实类似啊，身高做完了以后，下面就是除了身高以后。

在其他的特征上一次再做上述的过程就可以了，回归数哈其实和分类数是一样的啊，只不过呢就是它的这个嗯特征分裂呢，需要遍历所有的数据集，是个挺麻烦的问题啊，其他的也就没什么太大问题了，看看还有什么问题吗。

OK那这样的话我们今天的内容就到这吧，如果大家有什么问题的话，我们可以在群里在一块提出来，我们再讨论，好吧如果没有问题，今天我们就到这吧，啊有些人能够理解又不理解，不知道该如何自处，那就是没有理解啊。

这个你放心，不能够期望于你听这么一遍，就能把这些内容能够全部理解，这也是不现实的呃一种预期，所以回去以后啊，方法是什么，就是把这些材料啊，至少把这些材料你需要把它再读几遍。

如果觉得这些材料这个理解不是那么清楚呢，就是李航老师的那本书啊，你拿出来之后再再再再仔细的，其实我们这本其实我们所有的材料内容，基本上都是属于这本书里面的材料啊，只是我们把它做了一些经验。

因为我们的时间有限，所以结合这本书里面的这些样例，可能会对你的理解有所帮助啊，当然还是那样有问题啊，你是因为你，你需要把它内化成你自己的这些东西啊，就是你需要把它不光是自己能够理解你。

还是你还需要试着能够说服别人，让他们也理解你的这些内容，我觉得这样就是理解了好吧。

OK那就这样好吧。

【七月在线】机器学习就业训练营16期 - P7：在线直播：7-朴素贝叶斯、SVM模型精髓速讲_ev - IT自学网100 - BV1Z9T5ewEKL

We used to calling outside your mind，I won't see you tonight，So i can keep on going to。

I don't know where i，I get some kind of mazy day，I've been riding through to find my town toni。

I'll be due tomorrow。

My as both the same，I get some kind of ra，Cause it's hard for me to lose in my life。

I've found only time will tell，And i figure out，Can we can do the one night stand in。

And it's hard for me to lose in my life，I've found outside your skin，Right near the fire。

Can we k we need change to be alright，I'm a little used to woman from outside away。

You can leave me tomorrow with suits，You trying to say，I remember，But i don't know enough。

I need somewhere，It leaves the d，Cause it's hard to me to lose in my life，I've found only time。

Will turn out fire out that we can b when i stand here，And it's hard for me to lose in my life。

I've found outside your skin，Right，Near the fire，Cause it's hard for me to lose in my life。

I've found only time，Will tell，And i will figure out that we baby，We can do the one night stand，Yeah。

And it's hard for in rooms in my life，I've found outside your skin，Right near the fire，The weekbaby。

We can change and feel alright，Cause it's hard to be the leaves in my life，I've found only time。

And i will figure wrong，And we can be it，The week and the one night stand，You is this。

How you been used to my life，I've found outside your skin，Right near the fire。

We can change to be alright，I'm a little used to calling outside your mind，I won't see you tonight。

So i can keep from going insane，But i don't know when i，I get some kind of lazy day。

I've been riding this through to fight，My town man，I'll be stewed tomorrow，I don't leave us。

Both the centur，But i don't know enough，I get some kind of lazy。

Cause it's hard for me to lose in my life，I've found only time will tell，And i figure out that。

We can go，We to the one，I stand is，And it's hard for me to lose in my life。

I've found outside your skin，Right near the fire，I'm a little used to woman on outside away。

You can leave me tomorrow with suits，You just the same，But i don't know enough，I need somewhere。

It leaves the day，Yeah，Cause it's hard for me to lose in my life，I've found only time will tell。

And i will figure out that，We can b you know what i stand here。

And it's hard for me to lose in my life，I've found outside your skin，Right，Near the fire baby。

We can change and feel alright，Cause it's hard for me to lose in my life。

I've found only time will tell，And i will figure out，We can baby，We can do the one night stand，Yeah。

And it's hard for me to lose in my life，I've found outside your skin，Right，Near the fire that we can。

Cause it's hard to be losing my life，I've found only time will tell，And i will fall。

And we can better do the one night stand here，And as hard as a rose in my life。

I've found outside your skin，Right，Near the fire，A little used to calling outside your mind。

I won't see you tonight，So i can keep from going time。

I've been riding this through to find my town ton，I'll be stewed tomorrow，I don't leave us，Ps。

It's hard for me to lose in my life，I've found only time again，Take it out。

And we can do the one night stand here，And one for me to lose in my，喂喂嗯，如果声音和视频没有问题的话，我们就准备开始好吧。

嗯嗯按照我们的安排呢，今天晚上我们和大家一起讨论一下，关于支持向量机的内容，SVM呃，非常重要啊，这个我们先看一下，啊为什么这么说嗯，第一点呢是因为这个支持向量机，是在我们机器学习方面嗯。

特别是深度学习之前，这个阶段可以说是最重要的模型之一啊，大家如果有兴趣的话，可以翻看一下大约十几年20年之前的论文啊，啊各种各样的基于支持向量机的改进模型，非常类似于我们现在深度学习领域。

各种各样的人工神经网络的修改啊，各种各样的变形，也就是说哈，就是十几年之前，SVM的这个地位和现在深度学习当中，神经网络现在的地位，基本上是相同的一个概念啊，从此也可以看到啊，这个工作啊这个的重要性。

当然啦因为呃限于啊只是向量机这个工作，这个模型的性能啊，已经达到了一个相对来说就是平均啊，不会像深度学习那么构建的，复杂的人工神经网络取得那么好的效果，那么为什么在现在这个时间点上。

还要向大家做一个介绍，是因为在实际的工作过程当中哈，我们往往需要对我们的工作的结果，做一个评估啊，就是我们到底做得好还是做的有问题，需要做一个评估，既然要做评估，就要有一个比较的基准或者极限啊。

现在呢往往呢我们习惯上可以使用这个SV啊，现在我们已知的数据集上跑一下SM，看一下结果啊，作为我们一个基线，然后呢在此基础上呢，我们可以构建各种各样的模型啊，包括机器学习模型，也包括深度学习模型嗯。

做性能上的改进和优化，那这样的话我们就有一个评估的一个标准，好吧，嗯这是第二点，第三点呢，就是在我们这个实际的面试过程当中啊，找工作面试的过程当中，往往呢支持向量机，也作为一个非常重要的考察点。

来这个和同学们有一个，就是面试官和你有一个交流啊，所以这个时候呢嗯很很很，很显然你需要对它有一定的了解才可以，所以基于以上三点，就是第一点呢就是它本来就很重要啊，第二点呢就是就是第一点它性能很好。

本来就很重要，第二点呢，就是他这个作为现在的一个，工作基础或者工作基线啊，也是需要对他有个了解，第三点呢就是面试的过程当中会考察得到啊，所以基于以上三点，我们还需要把它做一个介绍。

那么支持向量机它的前序工作啊，有兴趣的同学可以看到是感知机模型啊，感知机模型，感知机模型再往前去啊，可能就是我们的线性回归模型啊，感知机模型呢和我们的逻辑回归模型，其实呢非常类似。

只是他们的激活函数不一样，而且他们的这个呃优化策略不太一样，所以呢导致他们产生了，或者导致了两个不同的方向或者结果，嗯从这个角度上也可以看到啊，即使复杂相支持向量机啊，它的基础模型其实还是线性回归啊。

一会儿我们会介绍到为什么这么说好吧，其实还是在此基础上做了一系列的改进而已啊，今天我们聚焦在这儿啊，聚焦到这嗯，说一下后面的安排，后面我们逐一的安排是要讲到check boost啊，所以说啊。

这个我们上一次讲到了这个决策树模型的部分，还是希望大家回去以后啊，这个有重点的回顾和学习一下，然后呢我们在周一的时候介绍XGB的时候，你才才才才大约有一个这个基础是吧，这个地方需要注意一下呃。

看看声音和视频，如果没有问题的话，我们就继续，OKOK今天要讲到直升机，OK那先看一下这个主要内容啊，知识向量机的内容其实还是蛮多的啊，很多比如说哈，我们要讲到所谓的线性可分支持向量机。

也被称之为是硬间隔支持向量机，另外一个呢是线性支持向量机，也被称之为是软间隔支持向量机，那第三部分呢是所谓的非线性支持向量机，引入了和技巧以后进行非线性化，第四部分呢就是序列最小最优化和SMO啊。

最后呢当然是个应用嗯，除了应用之外哈，就是我们这一周主要是原理部分，所以我们下一周会介绍详细的应用过程啊，我们聚焦在上面，以上四个部分，在这四部分当中啊，是彼此递进的关系啊，彼此递进的关系。

也就是说线性可分的直线向量及就是硬件隔啊，是最基础的，然后在此基础上进行改进啊，引入所谓的松弛变量，构建所谓的软件隔，然后呢在软结构的基础上，我们引入和技巧，改进成所谓的非线性支持向量机。

可以处理非线性数据，最后呢，我们使用SM对我们以上的最优化的一个函数，进行一个求解，就完成了整个的内容介绍，那么在这四部分当中哈，这个呃最基础啊，大家要把第一部分啊，就是硬间隔这一部分嗯。

搞得非常清楚才可以啊，以适应啊，这个面试过程当中的一些基础性的问题，那么再进一步呢，其实最好还是把123部分啊，就是硬间隔，软间隔加上和技巧部分能够搞清楚啊，这样的话啊，对于SMSM的原理部分。

应该就问题不是特别大了啊，当然如果还有兴趣的话，你可以把SISMO也跟一下，因为我们最后的这个优化算法实现，是根据SMO来实现的，所以这四部分之间的关系啊，也希望大家能够有一个了解。

那么我们就从最基础的这个硬间隔开始介绍，那么硬间隔支持向量机哈，首先我们把它所需要解决的问题搞清楚，我觉得这是非常重要啊，后面我们会讲方法，就是怎么解决它，但是一开始哈很多的时候嗯。

同学们就是问题都没有搞清楚啊，就是没有带着问题去找解决方法，这个时候就会更大，更加的混乱，好吧，我们看看第一个啊，首先我们看数据集，我们拥有的数据集是T啊，X 1y1 x 2y2，一直到XNYN。

这是我们一个典型的有监督数据的一个数据集，其中呢，xi是属于我们输入空间里面的一个元素啊，这里的xi是我们输入空间里面的元素，很显然因为它的黑体表明它是一个向量，它是等于一个RN空间里面的一个向量啊。

RN的一个向量，N维的向量，其中的YI就是我们的标签数据啊，就是我们的标记，那么YYI呢是我们花外啊，输出空间里面的一个元素，注意它的定义啊，注意它的定义，那么它的输出空间等于什么。

输出空间被定义为正一负一，那么很显然啊，硬间隔支持向量机，处理的是所谓的二分类问题啊，二分类问题，两个类别正一和一，有的人就会有疑问啊，既然是二分类，我定义成零和一，可不可以，比如说我们上次之前介绍。

介绍过那个逻辑回归模型对吧，也是个二分类，但是在逻辑回归模型当中，它的二分类的标签被定义为是零一，在这里啊非常明显的一个区别，支持向量机当中的标签是分为正一和一，代表两个类嗯，能不能换成零一嗯，不可以。

因为后面我们会使用到这两个值的一些技巧啊，这个地方需要注意一下，那么I呢是从一到N1共有N个数据样本，其中xi啊为第二个特征向量的实例啊，下标为I嘛，是第二个数据，YI是DXI的对应的类别标记。

对应的类别标记，当YI等于一的时候，当Y等于正一，我们认为xi称之为是正立或者正样本，当YI等于一的时候，我们称xi为负利或者负样本，那么XIYI呢就被称之为是样本点啊，样本点这里的正负啊。

你会发现xi啊，我们xi的正负是根据它所对应的标记的正负，来进行判断的啊，你是正一，那你就是正立，你是一，那就是你就是负利，看下面嗯，那么所谓的线性可分支持向量机，或者叫做硬间隔支持向量机。

就是给定一个线性可分的数据集，这里假设啊，这里假设我的数据1T是线性可分的啊，这是前提条件，那么在线性可分的数据及T上，我们通过所谓的间隔最大化或等价的求解，相应的土耳其规划问题。

那么学到一个所谓的分类超平面，W星X加B星等于零啊，以及它相应的分类决策函数，FX等于sin w星X加B星，这个就被称之为是线性可分的支持向量机，也就是说最终的线性可分向量积就是个FX。

这和我们前面介绍的是相一致的内容对吧，我们一直在强调，所谓的模型就是我们的映射函数，那么这个映射函数呢是通过后面这个算W星，X加B星来构建完成的，里面需要说明的是，W型和B型为直直向量机模型的参数啊。

不是感知机，是SVM模型的参数，W星呢也是一个RN的一个向量，我们把它称之为全职或者全职向量，B型呢是属于R的，很显然是个标量，叫做偏执偏执，W星是X中间我们做的是内积计算啊。

内积计算表示W星和X的内积，注意这里的SN是一个所谓的符号函数，符号函数的含义就是我们只取W星X内积，计算完成之后，加上B星的那个结果的那个符号啊，那个符号我提取出来，把那个符号函数有了以后。

我们把它复制给我们的输出，得到我们最终的当前X输入以后的那个输出值，就可以了啊，这就是所谓的硬间隔支持向量机放在这儿嗯，介绍完以后呢，可能会大家会就是莫名其妙，到底他讲的是个什么事，还是不清楚是吧。

那么这个时候呢，我们需要把这一段的文字描述啊，把这一段文字描述，把它转换为啊我们能够理解的一个图形描述啊，图形描述，那么首先我们先从数据集开始啊，先从数据集开始，这里的数据集X1Y1到XN。

YN是N个样本点嗯，这N个样本点呢X属于RN的，这一段是个N维向量，为了能够我们在图上画清楚，所以这个时候我们令N等于二啊，特指为二，这个时候能够表示清楚，有了这个假设以后。

我们当然就可以构建一个所谓的平面，这里呢是X1，这是X2，那么很显然，平面当中的一个点就作为我们一个X向量，这个X向量很显然就等于X1X2，怎么注意啊，是个转置啊，列向量对吧。

一个点我就可以分别用横坐标和纵坐标，相对应的来表示这一个样本点，那么这只是表明了X的位置啊，表明了X位置，更重要的是，我们还说到过和X所对应的Y也有规定，怎么规定的呢，如果X如果这里的Y是等于正一。

我们把YI称之为是正立，但问题是在现在这个直角坐标系里面，没有关于Y的，没有Y轴对吧，这是首先肯定的，没有Y轴嗯，既然没有Y轴，我怎么把正一和一分别表示清楚，这个时候我们规定所有输出为正一的正样本。

用圆圈来表示啊，假设这些样本点都是正样本，所有输出标签是为一的，我们用叉号来表示，叉号来表示，那这样我们就可以大体上能够把样本，在这个平面直角坐标系里面，这样能够表示清楚了啊。

这是所有对应为正样本的样本点，这是对应所有负样本的样本点啊，那么这个时候呢也说明了另外一点，就是刚才所说的，这是在给定的线性可分的数据集的基础上，你很显然这里的正样本和负样本，明显是线性可分的。

什么叫线性可分啊，就是我可以找到一条直线，能够很好的把正负样本能够分开啊，这就是所谓的线性可分，那就会同学就会问，那什么是线性不可分啊，举一个极端例子，比如说这个地方还有一个正样本。

那么很显然当前这个样本，当前这个数据集就是线性不可分的，为什么，因为你找不到任何一条直线对吧，你不管你你你你怎么找，你都不能够啊，一刀切下去，把正负样本严格分开，因为倒霉在这个地方。

它位置太太特殊了是吧，这就造成了当前整个的数据集是线性不可分的，所以说也就是说硬间隔的基础条件，你必须是线性可分的啊，能够一刀切成两部分啊，这是前提条件，那么有了这个数据集的这个表示以后，你再去看一下。

在给定的线性可分的数据集上，我们通过所谓的间隔最大化或等价的求解，相应的图二次规划问题，不明白什么意思，先放一放，解决完这个问题以后，我们要得到一个什么东西，我们要得到一个所谓的分离超平面啊。

所谓的分离超平面，那什么是分离超频命令，下边在这是W星X加B星等于零啊，这么一个东西，他又告诉我们，这里的W星被称之为是，全知向量啊，全值向量它呢也是RN的啊，它也是RN的，刚才我们说过。

这里假设N是等于二对吧，假设N是等于二，那么很显然W星就应该是等于W1，W2所组成的一个列向量，然后呢他要和谁呀，他要和X刚才我们说过X等于什么，X等于X1X20向量，这两个向量做内积。

我们知道要做内积计算的话，无非就是对应的分量相乘，然后进行累加，那就是W1乘以X1，加上W2乘以X2，然后呢加上一个B等于什么，等于零等于零，我们看一下这个式子啊，看下这个解析式，这个解析式哈明显啊。

我们初中的解析几何告诉我们，这个解析式明显就是在坐标轴X1，YX1X二啊，这个平面当中的什么是不是任意一条直线，没问题吧，W1乘以X1加上W2乘以X2加上B对吧，这是我们整个平面。

直角坐标系统里面的任意一条直线好了，既然是任意一条直线，我可以随便画，比如说我可以这样来画，没问题吧，要不你看一下当前这条直线，是不是首先把正负样本分开了啊，这个目的其实是已经达到了。

但是呢因为我们知道，这是我们直这个平面当中的任意一条直线，那么除了这一条直线之外，你看看我是不是，这条直线也可以把正负样本严格分开啊，你比如说再举一个例子，我这样分也没问题，换个角度，换句话说哈。

能够起到将正负样本进行分开的或者分割的，所谓的分离超平面并不唯一，你看看有多条直线，有多条直线都可以把正负样本严格分开，那这个时候就需要回到这里来了，就讨论一下什么叫做所谓的间隔最大化，或等价的求解。

相应的土耳其规划问题呢，那么回到这个图上来，我们分析一下，啊这两条直线好来看看，如果我们选择啊，如果我们选择以当前这条直线作为所谓的分离，超平面来把正负样本分割开，那么大家觉得有没有问题，如果有的话。

有什么问题，啊就是如果以这条线为分离和平面的话，有没有问题，如果有的话，有什么问题，啊有同学说距离不是很近，容易分错是吧，嗯是不是很近吗，你是针对谁来说的，因为我们现在有正样本和负样本两种数据集啊。

你是针对正样本所说的是吧，啊是这样啊，因为这条直线距离正样本非常的近，所以啊举个例子，比如说我现在有一个新的样本来了，我知道他是正样本，但是它的位置在这，首先我们根据这条分离超平面。

你会发现把它分错了啊，这是第一点，但是呢他又是一个正样本，它本身和正样本，这个这这一这一这一，这个分类距离非常非常的近，其实从我们直观上去看，并不应该把它分错，是因为你这条直线。

或者你这个分离超平面性能不太好，就像刚才这位同学说的，你距离这个正样本太近了，好，这是个很好的视角，我们看这条直线，啊不太极端啊，举一个极端的例子，比如说这条直线，那么同样因为这条直线距离负样本太近。

所以同样会出现，比如说唉，这个地方如果有一个新的负样本点的话，按照我们这条分类超平面就把它分错了，也就是说啊，在任意多条能够把正负样本严格分开的分离，超平面当中，我们是不是应该找到一个折中的直线啊。

既离正样本也足够的远，还离负样本也足够的远，才是一个所谓的好的直线或者好的分离超平面，那这就是下面这些这个问题啊，所谓的间隔最大化或等价的求解，相应的托尔斯维化问题，他其实就是需要要求我们要找到一个。

既不离正样本太近，也不离负样本太近的这么一个分离超平面，那么大家想想嗯，大约哈我们凭感觉看一下，大约大约大约是不是，这个虚线的这条直线应该是要比刚才那个正负，那那那两条啊，离这个正负样本非常近的直线。

要稍微好一些是吧，稍微好一些，那它好在哪儿，它就好在就像刚才我们所说的，既距离正样本足够的远，也距离负样本也足够的远啊，这就是所谓的SVM的一个最突出的一个特点，其实啊。

刚才我们找到的那些那些非常极端的分离，超平面啊，可能就是我们在感知机模型当中所确定的模型，也就看到了啊，为什么说SVM是一个性能上更突出的模型呢，就是因为它在基础模型的基础上，进行了大量的改进啊。

就像这样，我要找到一个更好的，那下面问题又来了，怎么才能找到它，好问题我们已经搞清楚了啊，就是要找那个所谓的间隔最大的直线啊，这个时候呢就带来一系列的问题，看下面，需要引入一些工具啊。

同样需要引入一些工具，帮助我们建立一个框架来分析这个问题，第一个呢就是所谓的超频WB，因为我们刚才说过啊，超平面就是一条直线啊，那这个时候我们只需要确定它的斜率和截距，就可以了。

所以我们用斜率和截距来表示当前这个超平面，超平面W个B关于样本点xi yi的函数间隔啊，我们用函数间隔这么一个概念，定义为伽马hi等于YI乘以w xi加B，你先把它记住啊，你先把它记住啊。

一会我们再会分析它到底是个什么东西啊，一会再分析的到底是个东西，他这样做超平面关于样本点的函数间隔啊，样本点的函数间隔，那么超平面关超平面WB，关于训练集的函数间隔，注意啊。

刚才我们可以看到这里的伽马hi，代入到公式里面去，计算的时候需要xi和YI啊，你给我一个样本点，我就给你一个样本点的所谓的函数间隔啊，这是关于伽马hi，那么既然每一个xi和YI都可以计算一个伽马H。

那我整个数据集T里面，从X1Y一一直到XN和YN，都可以计算N个伽马height，从伽马heat一一直到伽马heat2，最终到那个伽马heat n啊，都可以计算若干个伽马HT。

那么超平面WB关于训练集T的函数间隔，注意啊，这是关于整个一数据集的函数间隔，被定义为你那大N个所有的函数间隔，伽马hi里面最小的那个值，所作为我整个数据集的GMH好吧，这就是一个计算过程啊，计算过程。

那么再回顾一下关于样本点，我可以通过公式来计算出样本点的函数间隔，计算出所有样本点的函数间隔来以后，把其中最小的一个单独拿出来，作为我整个数据集的函数间隔啊，那这样的话呢。

我们的函数间隔就计算出两个结果来，那么再往下看这个，但是有同学就问这个函数间隔干什么用啊，不理解，看下面你就理解了，那么除了函数间隔之外呢，我们再定义两个所谓的几何间隔啊。

几何间隔你看看同样是超平面WB啊，就是我们的那条直线告诉我们了，然后呢关于样本点还是关于一个一个样本点，xi和YI的所谓的几何间隔为伽马I啊，没有那个小帽子了，没有那个hit了啊，伽马I伽马I等于什么。

伽马I等于YI乘以w xi加B，比上一个W的二范数啊，是这么个东西嗯，这个式子放在这儿，有同学马上也会很困惑，这个式子他也不知道什么意思，但是呢我们通过名称上，可以给我们一个很重要的启示。

这里的伽马I啊，这里的伽马I是一个所谓的几何间隔的概念，几何间隔的概念有什么叫几何间隔，把间隔换成距离，它的学名叫几何间隔，但是不好理解，你把它改成几何距离，你看看你能不能理解。

那几何距离是个什么东西呢，干脆把几何也不要了，干脆把几何也不要了，那它就是个距离，什么意思呢，我们再看一下超平面，WB就是对应的那条直线，以及样本点X和YI的距离，一个样本点。

一条直线点到直线的距离就是这里的伽马I，你有同学不大就有疑问啊，或者有困惑困惑在哪呢，这后面不是个距离公式啊，标准的距离公式应该等于什么，你应该等于WX加B的绝对值，比上一个W的二范数。

这才是我们标准的点到直线的距离是吧，初中解析几何告诉我们的，但是呢你又说这个式子又是所谓的距离，那很显然这两个式子应该相等啊，那你看看分析一下这两个式子是不是相等，这两个式子是相等的啊，为什么这么说呢。

首先我们可以看一下这两个式子的区别在哪啊，一个很重要的区别就是，我们知道距离是个非负值，大于等于零，但是呢你会发现诶，这个地方怎么没有那个绝对值号了，绝对值号没有了是吧，那这个时候就有就有问题啊。

既然你把绝对值号去掉了是不行的，为什么呢，因为你不能保证所有的样本点代入到WI，WXI加B当中，都是大于等于零的值，因为很显然，有些样本点是出现在这条直线的下侧，那这个时候带入到直线方程里面去。

是小于零的一个呃结果啊，所以那就不能是距离了，但是除了这个绝对值去掉了以外，你会发现哎前面多了个YI是这样吗，多了个YI，回想一下我们关于那个YI的取值，它是属于什么，它是属于正一负一的，那好了。

我们分两种情况来讨论一下，如果你这个LI是等于一，你这个YI等于一，意味着所谓的负样本，负样本就出现了，我们分类超平面的，下面是吧，分类调平的下面竟然出现了，下面代入到w xi加B这个方程里面去。

我们得到的是小于零的值，注意这个时候的YI是个一，而你这个时候恰好得到的是个小于零的值，一乘以小于零的值，是不是应该是非负值啊，没问题吧，非负值，所以你会发现哎如果是一的时候，我们得到的是个非负值。

那么如果是正一呢，如果你是个正一，那意味着你当前是个正样本，正样本带入到直线方程里面去，得到的就是大于零，哎你看正一大于零又是一个非负值，那么很显然就和我们的距离的含义，就对应起来了，换句话说。

这个地方之所以可以把绝对值号去掉，使用的一个技巧，也就在这个地方的YI的一个定义形式，这也就解释了刚才哈，为什么一直在强调Y的取值正样本是正一，负样本是一的一个很重要的原因，好吧好了。

回过头来我们再看一下，通过以上分析，我们得到一个结论，什么结论呢，就是这里的伽马伽马I就是我们样本点距离，分离超平面的几何距离，那这个时候啊嗯我们再回顾一下刚才那个图，刚才那个图就是那个X1。

这是那个X2，这是正样本好吧，这是正样本正样本啊，假设啊分这条路线是这条直线，那这个时候每一个样本点，每一个样本点，每一个样本点都有一个所谓的假设，这是伽马一，这是伽马二，这是伽马三，距离距离距离距离。

那么负样本负样本负样本同样，伽马四马五马六好吧，那有了这个所谓的样本点的几何间隔以后，同样的道理啊，我们看一下超平面当中关于训练集的几何间隔，一样哈，因为每一个样本点我们都可以计算几何间隔，那这样的话。

N个样本点里面，最小的那个几何间隔被拿出来啊，作为我整个数据集的几何间隔好吧，那这样的话我们就有了另外两个伽马值，分别是伽马I和伽马，那么我们回过头来比较一下这四个伽马值。

这个地方的函数间隔和这里的几何间隔很小，很明显啊，有一个有关系，什么关系呢，你会发现哎这部分和这一部分是不是相同，很明显是相同的是吧，很明显是相同的，这也就是函数间隔和几何间隔之间，最大的一个关系。

就是在于几何间隔的分子部分，其实我们重新把它定义成了另外一个名称，叫函数间隔而已啊，那么很显然我们这里建立了这个关系以后，我们得到下面这两组公式看一下，就像刚才我所说的，我们把几何间隔的分子部分。

重新用另外一个符号，就是函数间隔来定义一下啊，称之为gm height i，那么在整个数据集上也有类似的关系，因为最小值是同一个是吧，所以这个地方的几何数据集上的几何间隔。

就是使用我们数据集上的函数间隔作为分子，比上一个W的二范数就OK了，那介绍这个工具以后，我们再回过头来看我们的问题，看看怎么表述是X1，这是X2正样本正样本，正样本，负样本，负样本负样本。

这是我们要那条所谓的最好的分差别，那么你现在想想，我们假设哈，假设这个点是我们距离，分类超平面最近的一个正样本，这个点是距离我们分离超平面，最近的一个负样本，那么大家想一下最朴素的一个想法。

就像刚才我们的要求一样，要找到一个所谓的最优的分离超平面，是不是就是尽量的使这个直线哎呀，在这两者之间有一个很剧烈的一个对抗，对抗对抗对抗对抗，最终最终得到了一个非常平衡的一个位置。

使得它距离正样本和负样本都已经，尽可能的怎么样了，远了它就是所谓的最优的，那怎么样把这种状态表示出来呢，那么大家想一下，我是不是只需要使这条分类超平面，尽可能的距离。

离他最近的那些样本点尽可能的怎么样远，是不是就可以了，那么刚才我们已，其实啊已经找到了那些所谓的距离，分离超平面最近的样本点了，是这样吗，因为前面我们的定义是这么来定义的，是所有几何间隔当中。

是数据集里面所有的几何间隔当中，最小的那个叫我的伽马，那么下面我们的目标是不是，就是只需要使这个几何距离最小的这个伽马，尽可能的怎么样，尽可能的大，最近的你都离得最远了。

那么是不是就保证了再远的也就更远了，是不是也就保证了这个分离超平面，能够很好地去完成对正负样本的分割了对吧，所以说啊就是怎么得到的，这个所谓的max伽马是最关键的一个问题啊，他是最小的那个距离。

我使最小的距离尽可能的大，那这个伽马就是最好的伽马啊，这个伽马所对应的W和B就是最好的W和B，好吧，那这个问题解决了以后，看下面这个条件还必须要带着什么条件，刚才我们一直在强调你这里所有的集合距离啊。

你这里样本点的所有的集合距离，都要大于整个数据集上的几何距离，因为你数据集上是最小的那一个，所以我样本点里面的任意一个都要大于等于它，才可以，这是一个约束条件是不能丢的，所以刚才好我们所说的两点。

第一点就是所谓的间隔最大化，就是说的是这里最近的样本点都尽可能的远，就达到了所谓的间隔最大化的要求，那么它所对应的，它或者说它所等价的那个所谓的凸，二次规划问题，就是是。

就是刚才我们所定义的这个带优化条件的，最优化问题，使得最近的几何距离尽可能大的啊，那个分离超平面作为我的最优分离超平面，当然约束条件是所有的几何距离，都要大于等于伽马好吧，到此为止，到此为止。

我们其实就解决了一个问题，是一个什么问题，就是我们要干什么的问题啊，我们就要干什么，就要干这个事儿，这个事儿嗯，怎么理解，我们引入了所谓的函数间隔和几何间隔的概念，通过使我们的几何间隔尽可能的大。

找到那个最优的分离超平面，好吧，看看这一部分有什么问题吗，如果没有问题，我们就继续好了，下面呢可以说是啊，这个问题就是目标找到以后啊，下面就是求解的问题了，其实说说到这儿啊。

后面的工作其实就交给我们数学的同学，就可以了啊，你就你只需要告诉他同学，你把这个数学问题给我解出来啊，找到我的最优解就OK了，我这个事就解决完了，但是当然不能这样做是吧。

那么怎么去求解这个带约束条件的最优化问题，我们做一系列的转化，把问题进一步的呃进一步的化简，继续往下等价的，我们把上面这个问题转化到下面这个问题，那么既然我们是要使得我们的几何距离，尽可能的大。

而我们知道我们的几何距离，可以表示成函数距离比上W的二范数的形式，那这样的话这个转这个转换是显而易见的是吧，就是把伽马替换成伽马height比上W2反数，那么条件呢相应的也需要变化一下。

因为这个时候如果我要保证几何距离啊，几何距离大于等于伽马，其实我只需要要求我的分子部分大于伽马HT，是不是就可以了，因为我们知道W2范数嘛，那个东西嗯，它作为分母就放在那个地方，是任意样本点的几何距离。

它都是那个W的函数，所以我只需要要求它的分子部分大于等，于这个伽马heat就可以，所以啊从这一步到这一步的转化，是比较容易理解的，难理解的是哪一步呢，是这一步怎么从上一步变成这一步，是比较难理解的。

就先看一下形式上，形式上呢你会发现上面是有一个伽马heat，而在这个地方伽马HT变成了数值一，变成了数值一，这是嗯最不太容易理解的一点啊，不太容易理解在哪呢，怎么你就把伽马HT变成了一好了。

回到我们这个图当中来啊，回到这个图当中来，你会发现其实为什么要引入这个几何间隔啊，其实一直很多同学就有困惑，为什么呢，因为很自然的我们想到的是使用不，为什么要引入这个函数间隔，是一直同学有个困惑。

因为很自然的是，我们这个地方有一个标准的几何距离是吧，你定义点到直线的几何距离时，这个几何距离足够小不就完了吗，你为什么还要搞一个函数距离呢是吧，为什么要搞函数距离的，原因其实是这样。

我们把这个几何距离是个绝对量，几何距离啊是个绝对量，你算出来那个数值它是几，就是几是不变的，但是呢这个函数距离啊，你可以把它通过缩放，把它缩放成一个相对量，什么叫缩放成一个相对量呢。

从形式上或者说从这个图示上，你可以这样来理解，我可以把距离分离，超平面最近的那个样本点的几何距离，我不管它数值上就是绝对量到底是几，我可以把它定义为，这里的一单位长度的含义啊。

我就以这个距离作为一个单位长度，用这个一和最短的这个距离，相对于其他距离的这个比值来表示其他的距离，是不是也可以啊，比如说举个例子啊，比如说我们考试啊，每一个同学都知道满分100分，你考了98分。

他考了37分是吧，这很正常，那么除了这种方式之外呢，我们还可以怎么做，我们还可以以比如说我们最高分作为满分状态，你和那个最高分的百分比进行比较，是不是也可以啊，比如说这分这份卷子很难啊。

最高就是最优秀的那个同学，他考了个87分啊，这个时候你会发现，整个班级的成绩其实都非常低，就是因为这个卷子本身太难了，那这个时候怎么办，我可以规定那个最高分啊，即使他只有87分啊，也是一个一啊。

标准单位一，你相对于它的一个百分比作为你的分值，就他考100分，就算他考100分了是吧，就他考了个满分，你相对他的百分比作为你的一个分支，是不是也是一个策略，其实是非常类似啊，非常类似。

就是这个地方为什么我们可以把啊，为什么我们可以把这里的伽马height用一，来替换的一个原因也在这，当然啊这只是形象的一个描述，那么在形式化就是我们在这种嗯数学表示上呢，我们还可以这样来理解。

我们前面一直讲到过，这里的WX加B等于零啊，代表的是我们这个平面当中的任意一条直线，因为这里的W和B都不确定是任意一条直线，既然是任意一条直线呢，我们举个例子，比如说2X加三等于零啊，这里的X啊。

我们是这个向量啊，所以这个地方比如说是2X1加，2X230是吧，那这个时候呢你看一下下面一条直线，叫做3X13X5，三X4X260，那这个时候你问一下大家哈，这两条直线啊，这两条直线什么关系。

一个是2X12X230，另外一个是4X加4X260，这两条直线什么关系，还有同学有印象吗，这两条直线是同一条直线，一条直线，因为它是通过等比例缩放吗，只是他们你会发现这条直线乘以二啊，前面T除以二来。

然后除过去，因为右边是个零，所以还是个零，所以说这两条直线啊，看看对啊，同一条直线很好好，既然我们说过，既然他俩是同一条直线啊，位置是不发生变化，就在就在那，但是你会发现它们的系数是不是发生变化了。

这里是223，这里变成了446，没问题吧，或者说我只需要等比例缩放系数，就可以得到同一条直线的多种表示形式，那好了，回头来看这个，看这里的伽马height，伽马heat啊。

它的定义形式你会发现哎在上面啊，你会发现哎它就是存在这么一种方式，我可以通过等比例的缩放，这里的W和B来改变这里的伽马HT值，没问题吧，那既然可以改变这里的伽马HT值。

那我是不是就可以通过一种嗯显然是存在，但是我不关心它到底是多少的一个值，能够把这里的伽马HT缩放成几啊，缩放成数值一，就像刚才我们举的那个例子是一样的是吧，我就规定你最近的那个同学就是一啊。

你就是考满分啊，其他的所有的其他样本点相对于你的百分比，作为你的距离就OK了，因为这个地方函数严格啊，不是个绝对量啊，不是个绝对量，它是个相对量，所以说啊这一点希望大家能够理解，能够理解。

不管是从这个数值上还是从他这个形象上啊，你能够把这一步，从这一步的这个问题能够很好的就是伽马heat，为什么能把替换成一，能够好好的理解一下，好了嗯，嗯这样的话我们就这个问题到这儿，这个问题到这。

然后看下面这个问题继续往下，还没完啊，这个条件也需要发生变化一下，因为这个地方我们已经把伽马hi缩放成了一，所以约束条件变成了YI乘乘以WXI，A加B是大于等于一的啊，大于等于一的，那么继续往下看。

那么从这一步到这一步呢，问题其实就相对比较好理解一下，因为这个地方我们求的是分这个分式的最大，分式的最大，我们知道求分式的最大，我们只需要使分子怎么样啊，分母怎么样，使分母尽可能的小是不是就可以了。

所以这个地方是求的是W2范数的最小值啊，W的二范数的最小值，分母如果尽可能小了，你这个式子是分式，是不是尽可能大的，那么这外边这些是什么意思，那么我们分别看一下啊，既然是求了W2范数的最小值。

平方向是不影响最小值求解的，那么1/2也不影响最小值求解啊，这个你可以这个自己想象一下啊，我们一个变量啊，一个变量我要求它的最小值啊，它的最小值的那个位置上啊，平方之后还是他1/2之后也不影响。

为什么要说这个处理呢，是因为后面我们要求导这个时候的导数一求二，往前一提和1/2就约掉了，所以最后剩下的是W的二范数，只是为了数学上的一个求解方便好吧，然后呢约束条件呢也发生一些变化。

把这里的右边的正一移项到左边去，变成YIWXI加B减一大于等于零就可以了，那么下面的问题呢就拔啊，成功的把我们的这个一系列的转化，转化成最终的求解目标啊，就是求解这么一个带约束条件的最优化问题。

我们再往下看，正式的啊，给出最大间隔算法，那么首先输入条件就是我们的数据集T啊，线性可分的数据及T，那么输出的就是所谓的最大间隔，分离超平面和我们的分类决策函数，其实最核心的就是找到那条分类超平面。

第一步就是构建带约束优化条件的最优化问题，如果我们能够把这个问题求解出来，得到所谓的最优的斜率和最优的结局，那所谓的最优的分离超平面，就是W星X加B型等于零，那么有了这个分离超平面以后。

分离角色函数就变成了W星X加B星啊，取负号，然后得到FX的输出，那么这个时候很显然这三部啊，有些我们前面提到这个经常提到的那个笑话，是哪个笑话，把大象装冰箱里分几步是吧，拢共分三步，打开冰箱。

把大象装进去，然后把冰箱门盖上，但问题在于你怎么把大象装进去，换句话说，在这里的核心，第一步你怎么把这个问题求解出来，其实你并没有给出答案来，是这样吗，也就是说后面我们把问题还是聚焦在，还是聚焦在。

求解这个带约束条件的最优化问题上啊，一旦你求出来了，分离超平面就有了，你一旦你分离超平面，有了你的绝对函数，也就有了，最核心的还是在这，那么在求解那个问题之前呢，我们看看我假设已经把它找出来了。

已经把那个分类超平面找出来了，就像刚才那个例子里面一样，正样本正样本，正样本，负样本，负样本负样本，假设我已经把它找出来了，你看看这条分离超平面，它应该具有什么样的一些特性，什么特性呢。

首先这个特性是W星X加B星等于零，我找出来了好吧，他既离这正样本，也离这负样本都足够的远啊，都足够的远，那么首先我们可以看一下，首先第一个这个样本点距离，分离超平面的这个距离，它的函数距离是几。

函数距离很显然是一，就像刚才我们所说的，你最近的那个样本点距离，分离超平面的函数距离，通过缩放就缩成了什么一样，你这个最近的负样本距离，分离超平面的距离也是一啊，当然这个一个单位一的含义是吧好了。

那这个时候啊，我们过正样本，这个点做平行于分离超平面的一条直线，那么我们得到这么一条直线啊，直线啊，直线这个这个这个手写就画不出来，怎么停，你自己理解就可以了，那么同样我们也可以做过这个负样本。

这个样本点做平行于分离超平面的一条直线，这条直线，那么大家想象一下，那么很显然这两条直线彼此应该就是平行的啊，彼此应该是平行的，那么这两条直线的距离，如果我们还有函数距离这个概念的话，应该等于几。

应该等于一，加一，应该等于二，这并不重要，重要的是什么，你看一下在这两条直线中间的区域，会不会有样本点存在，不管你是正样本还是负样本，会还是不会，一定是不会的，为什么，因为我们制作这两条直线的标准啊。

就是以最近的样本点平行于分离超平面，来做个平行线，那么既然已经是最近的样本点，都在这个直线上了，那么这两条直线中间是一定不会存在样本点的，这是非常重要的一个结论好吧，那么这两条直线啊。

这两条直线分别把它们称之为是间隔边界，间隔边界，这个呢我们一般称之为是H1，这个是H2，那么在间隔边界，H1和H2中间所构成的这个区域，是没有任何一个样本点的，换句话说你用样本点的都跑外边去了啊。

都不在外边才可以好了，有了这个概念以后呢，我们继续往下看，就真的需要把那个求解一下吧，求解一下怎么求动用的，就是所谓的拉格朗日乘子法啊，这个拉格朗日乘子法呢，在我们这个附录A部分有介绍，有兴趣的同学呢。

你可以查一下那个课本的附录A，这个地方呢我们直接使用这个方法好吧，直接使用这个方法，这个方法是这么说的，首先第一步引入所谓的拉格朗日乘子，构建拉格朗日函数，这里的拉格朗日乘子呢。

就是看一下你的整个的约束优化问题，有多少个约束约束条件，你就必须要构建多少个拉格朗日乘子，回顾一下刚才那个约束目标问题在哪儿呢，在这儿在这儿，这是最优化目标，这是约束条件，注意哈，约束条件说的是。

所有的xi和YI都必须要满足，大于等于零的这个要求，我们知道整个样本点里面有多少个元素，有大N个元素，所以每一个元素所对应的这个约束条件，都必须要有一个相对应的拉格朗日乘子，所以拉格朗日乘子从阿尔法一。

阿尔法二一直到阿尔法N啊，比如说第一步哈，这里的拉格朗日承德有N个阿尔法，I是大于等于零的啊，每一个拉格朗日乘子都是非负的，那么这里的I是从一到N，为每一个样本点所对应的每一个约束条件。

构建一个拉格朗橙子，然后呢构建拉格朗日函数，拉格朗日函数的构建呢其实就分两部分，哪两部分，第一部分，原优化目标，就是那个二分之1W的二范数的平方，我们的原优化目标是第一部分，那么第二部分啊。

第二部分是将所有的约束条件啊，是将所有的约束条件乘以它所对应的，拉格朗日乘子，然后把这个乘积全部进行累加，就是拉格朗日函数的第二部分，首先我们可以看一下这里的约束条件，约束条件是YIWXI加B减一。

是大于等于零的啊，为什么，为什么怎么后面那个式子里面有一个符号呢，所有的约束条件都改写成小于等于零的形式啊，不要问为什么啊，就是这么来定义的，或者来使用的啊，那么如果写成小于等于零时的形式。

很显然需要变一下号，所以形式上就变成了负的，YIWXI加B加一是吧，这是约束条件，约束条件乘以它所对应的拉格朗日乘子，阿尔法I啊，这是一个约束条件，乘以它所对应的一个拉格朗日乘子，这样的乘积有多少个。

有从一到大N个，因为我们刚才说到过有N个约束条件，那这样的话我的拉格朗日函数就构造完成了，稍微调整一下，就得到下面这个式子，这是第一步，引入拉格朗日乘子，构建拉格朗日函数。

那么第二步第二步求拉格朗日函数的极小啊，求拉格朗日函数的极小，那么求极小呢有一个非常一般性的策略啊，求技巧，非常一般性的策略，就是我们只需要使得当前这个拉格朗日函数，对你的优化目标啊求偏导。

让这个偏导值等于零，那个位置就是所谓的极小值所定的位置，所以这个时候我们使用拉格朗日函数，分别对我们的W和B啊求一下偏导，看一下这个式子，让它等于零就可以，首先呢我们对W求偏导啊。

就上面这个式子对W求偏导，这个时候就体现出刚才那个优化目标函数的，这个设计了啊，二分之1W的二范数一求偏导，一求偏导之后，二往前一提和这里的二分之一一乘，就变成了系数一。

那么得到的就是W注意这里W是个向量啊，W是个向量，向量的偏导怎么求，其实也是对应维度上求偏导就可以了好吧，那W求完了以后看后面这个式子，在后面这个式子里面，我们同样是要对W求偏导。

那么很显然这里的SUI，从一到N每一项里面都有一个W是吧，然后呢是阿尔法I系数往前放没问题，然后是负的YI往前放也没问题，然后在这个式子里面对W求偏导，得到的是xi后面都不再包含W。

所以得到的是sum i，从一到N阿尔法IYIXI，注意把那个负号提前变在这个地方，让这个式子等于零，得到这么一个关系式，得到这个关系式，同样我们对偏置B求偏导啊，偏置B求偏导这一项没有B。

后面这一项里面只有这一项是带着B的，所以得到的是SUMI从一到N，然后呢就是阿尔法IYI往前提一个负值，变成负的SI从一到N阿尔法IYI是等于零，也就是说第二部里面，我们对拉格朗日函数求极小值的时候。

分别对W和B求偏导之后，得到上述两个式子，得到上述这两个式子，那这两个式子呢我们需要看一下，调整一下，我们得到下面这个式子，W等于sum i从一到NRFIYXI，然后第二个式子是SUMI。

从一到NRFY是等于零，首先第一个式子就非常重要，重要在哪重要，在你会发现我们室友为了求W，这个时候我们得到一个关于W的一个表达式，而在这个关于W的表达式里面，xi和YI都是已知的，就是我们的数据集。

而在其中只有谁不知道，只有阿尔法还不易不知道，换句话说，我只需要确定这里的拉格朗日乘子，把拉格朗日乘子带入到这个表达式里面，就可以得到我们的一个目标W好吧，那这个时候我们把这个式子放在这。

也就是说我们现在的目标和核心目标就对，就聚焦在这里的R发上了啊，R上了，那得到这个式子之后怎么办，我们需要把这里的关于W的表达式，带回到原拉格朗日函数带回去，带回去的过程当中，首先看这个式子啊。

二分之1W的二范数的平方，那么W的二范数呢变成了这个式子，那换句话说它应该是等于SUG，从一到N阿尔法GYGXG，没问题吧，就是W乘以W吗，W的平方不是W乘以W吗，你W1个在这。

你后面再乘一个W是不是就可以了，就这个式子，这个时候呢就有同学有问题，有什么问题呢，你前面这个W是用的I，后面这个W为什么就不用还，而变成另外一个循环变量了啊，这是个细节部分啊，很显然是需要变的。

为什么要变，因为这里的W乘以W，你可以把它想象成是什么笛卡尔基，由于这个就类似啊，比较一下笛卡尔机，你前面是一个循环，你后面是一个循环，这两个循环是要交叉相乘的，明白什么意思吧。

如果你使用同一个循环变量，那这里是I从一到N阿尔法YXI乘以sum i，从如果还是I等于一到N阿尔法i yi xi，那只能是从一一直乘到什么N，就没有交叉相乘的关系，而在这个地方。

W2范数的平方横线是交叉相乘的关系，所以这个地方的循环变量要发生变化，所以你得到的式子是下面那个式子，可以看到是二分之1SY，从一到NSUG，从一到N阿尔法IYI阿尔法。

阿尔法GYIYG乘以XI乘以XD好吧，这个地方特别需要注意一点，然后呢再把这个W带入到这个部分啊，代入到这个位置上，你看把这里的把W换成这个表达式就可以了，就下面这个式子，下面这个式子呢稍加整理哈。

稍加整理就得到最终这个表达式，注意一点的是，在中间你会得到一个局部的计算，结果是这个结果，而我们知道这个结果是等于零的啊，这个结果等于零的，所以最后剩下的这个表达式这些这些部分啊。

回去以后建议大家好好的，你找一张白纸，找个笔啊，然后你把它过一遍啊，仔细一点啊就可以了，就得到下面这个表达式，稍微加一下整理啊，得到第二步的最小化，结果是等于负的1/2，SMI从一到n sum g。

从一到N阿尔法I，阿尔法GYYGXIXG加上一个SMI，从一到N阿尔法I这第二步就完了，第三步，第三步是在第二部极小化的基础上求极大化啊，求极大化极大化就变成了max啊。

求极小化之后的最大值约束条件是I，从一到N阿尔法IY等于零，这里的阿尔法I就是我们的拉格朗日乘子，是大于等于零的，那么第三步的求解啊，第三步的求解，有同学说哎这个求极大和求积小，就是换个换个方向嘛。

我们同样求一下偏导等于零，是不是就可以了，呃不是那么的简单啊，问这个就不是那么的变简单了，关于极大的求导，我们使用的就是所谓的SM，就是那个序列最小的优化算法来求解它，因为效率更高一些，效率更高一些。

那么SM呢是在后面的内容，所以到此为止，到此为止，我们可以看一下，关于带约束条件的最优化的求解啊，就是带约束条件的最优化求解的三步，第一步构建拉格朗日乘子啊，怎么构建的，刚才已经介绍了，第二步，求极小。

就是求偏导等于零，得到结果回带回拉格朗日函数，第三步调整一下，求极大求积大呢我们是用后面的SMO来解决，所以就放在这，所以后面我们看一下所谓的硬间隔，学习算法发生了变化，我们发生了什么变化呢。

输入和输出没有问题，通过上述的一些转化，我们构建并求解带约束的，在约束条件的最优化问题发生了变化，变成了最优的，最后的啊，最后的这个极大化过程，有的说哎不是极大化吗，因为是负值的极大化。

所以我们更习惯更习惯写成最小化问题啊，就是刚才那个约束条件问题变成了这个问题，当这个问题如果能够把这里的阿尔法解出来，就是拉格朗日乘子解出来以后，我们可以知道刚才带入到那个表达式里面。

就得到所谓的最优的W型啊，得到最优的W型B型怎么办，B型呢我们往上找找，看看有没有关于含有B的表达式啊，在这儿有一个在这个式子里面啊，在这个式子里面，我们看一下XI和Y都是已知的。

刚才那个W星是不是也已经被求出来了，也已经被求出来了，那这个时候就剩下一个一个B，那这个时候我们是不是可以，把所有的这些已经得到的值，都扔到表达式的右边去啊，都扔到表达式的右边去，得到关于B的表达式。

来看一下这个B的表达式是什么，好在这等YI减去SYI，从一到N阿尔法I星YI乘以XI乘以XZ，而我们知道这里的XI和XJ以及YI，都是已知的这个阿尔法，与同时这里的FI我不知道啊。

阿尔法I上一步其实已经求出来了是吧，你你求W星的时候，这里的阿尔法也已经知道了，其实这个地方其实就是W好吧，那这个时候W星也就已经知道了，有了W星，有了B星，那这个时候我们的分类超平面就已经知道了。

那么带回到我们的决策函数里面去也就知道了，那么好了，很显然哈，问题又聚焦到一个没有解决的一个，最优化问题上，但是不要这个时候就不要气馁，因为后面我们一定有解决方案，就是那个SM好吧。

这是关于硬间隔部分的介绍，看看大家有什么问题吗，硬间隔就是现在我们已经走到了这一步了是吧，如果没有问题的话，我们就继续好吧，嗯硬间隔支持向量机有一个最大的问题，就在于它的前提条件。

要求我们的数据集必须是线性可分的啊，这是一个非常严苛的条件，换一个思路，如果数据集不满足线性可分的条件，就像刚才我所说，唉如果数据跑又跑这儿来了，那这个时候硬件格式向量机，就解决不了这个问题了啊。

不能就解决不了了，那怎么办，就看第二步，第二步呢这个软间隔支持向量机，软间隔支持向量机，是在硬间隔支持向量机的基础上，做了一点条件的放松啊，作为这个条件的放松，使得它在一定程度上能够处理一部分。

所谓的线性不可分的情况，但是呢解决的并不彻底，为什么这么说呢，我们先看论，先看一下这个定义哈，线性直线转机也被称之为软间隔直线机，看这首先它是给定的是线性不可分的，训练数据集啊，一上来就告诉你。

你之前那个强的线性可分的要求，这里就不需要了啊，既然数据是线性不可分的，那你就必须要处理那种所谓的很麻烦的情况，看他怎么处理的，即使是一个线性不可分的数据集，它也是通过所谓的间隔最大化的策略。

来进行解决的，那么同样啊，同样也是对我们的二次图优化问题，进行一个求解，但是这个地方的，求这个地方的二次图优化问题发生了一点变化，变化在哪，首先我们看形式上，他的这个求解目标就不一样了，哪不一样了呢。

除了我们原来的求解目标，二分之1W的二范数之外，还加了一个CB的SUMI，从一到NCI嗯，N个COC是吧，进行一个累加和，然后再乘一个C，作为一个求解的优化目标的一部分约束条件。

YIWXI加B原来只是要求大于等于一，现在是要求大于等于一减去COCI啊，另外一个条件就是所有的cos都是大于等于零的，嗯这里呢很显然多了一个变量，就是这里的COCI的问题，那怎么去理解这里的COCL。

就是一个很重要的一点，我们核心啊就是分析一下这个约束条件，这里的约束条件说的是YIWXI加B，是我们刚才所介绍的那个函数，距离在原始的那个硬间隔当中，他要求是大于等于一，严格的大于等于一。

想想这个一的含义啊，还记得这个一的含义是什么吗，正样本正样本负样本，负样本负样本，这里的一说的是最近的那个样本点距离，分分隔超平面的那个距离是那个单位一是吧，那个单位一。

所以呢我要求的是你看最近的都只能是等于一，那么这些远的就只能是怎么样，是不是就只能是大于一大于一啊，这是原来的那个硬间隔的要求，但是现在呢我现在是要求大于等于一个一减巨，可CI。

而这里的可CI居然是个大于等于零的值，一减去COCI，1-1个COCI，而我们知道COCI本身就是个大于等于零的，那么这个式子很显然应该是小于等于一，没问题吧，换句话说，我居然允许允许什么。

允许某些样本点比这个之前所谓的，最近的那些样本点，距离这个分类超平面的距离还要近，你看原来这个原来是硬件格里面最近的点，距离分离超平面就是那个一，现在呢我要求的是一减COC2，而cos是个正值啊。

至少是个非负的，那么意味着我允许某些样本点距离分离，超平面的点是一减去，cos i居然比这个谁的最近的还要近一些，那这时候很显然核心问题就出现在这里，玩cos i的问题了，我们如果再仔细分析一下。

因为这里的cos i只要求大于等于零啊，是个是个是个是个非负的，如果现在这里的cos还是等于一，你想想出现一种什么情况，这可C还是等于一，很显然这个条件是满足的，大于等于零吗。

那么上面这个式子变成了什么，1-1变成等于几，1-1变成了零，1-1变成了零，意味着我的函数距离啊，我的函数距离居然是等于零的，函数距离等于零意味着什么，这里的样，这个时候的样本点跑哪去了。

是不是跑到分离超平面上去了，还没完啊，同学们，如果可CIA2了，cos i等于二，意味着跑哪去了，是不是跑到这儿来了，跑到了分类超平面的另外一侧啊，你原来是正样本，一一开始，硬间隔里面严格要求。

你必须在那个分割边界H1上，现在你通过一个CCI的引入，居然允许他跑到了那个分隔边界里面去了，甚至允许他跑到分隔边界上去了，甚至还允许跑到另外一侧去了，不要忘了，这里只要求cos要求cos大于零。

如果这里cos等于七，你现在跑哪去了，跑这来举个例子啊，举个例子，那这个时候你再来看看整个数据集意味着什么，整个的数据集就变成了所谓的非线性，可分的数据集，换句话说。

软件格式销量级来处理现象不可分的一种策略，就是对我们的分隔边界，那个移植进行了适当的放松，允许某些样本点啊，允许某些样本点不再严格的遵从，我到分类超平面的那个距离是一这么一个条件，也就是说。

我允许某些样本点跑到分类间隔当中去，允许某些样本点跑到这边一侧来，甚至可能更远，那这个时候不就是所谓的线性不可分，观点能够处理掉了吗，但是这个时候又带了一个麻烦在于，如果你都这样去做，你这个COCI。

每一个每一个样本点都给他cos，而这个COCI都很大，那这个时候就全乱套了，全乱套了，这不省力，那怎么办呢，唉回过头来再看一下你的优化目标，就发现哎这个地方是非常有道理的，有道理在哪。

你不要忘了你的优化目标，你这个可CI不能够太离谱啊，你只能够允许某些样本点，出现那些不正经的情况，大多数绝大多数样本点，你还必须老老实实的在H1的外边，H2的外边才可以。

所以这个地方如果把COCI放在这个位置上，你会发现你的优化目标变成了什么，是在满足约束条件的基础上，使得那些所谓的不正经的样本点的，对应的那个那些可CI的和尽可能的，怎么样小才可以啊，你不能太放太过分。

不能太放肆，允许你们对吧，允许你们这个呃越越越界啊，略贵一点，但是不能够太太离谱啊，所以总体上每一个样本点我都给你一个cos i，你会发现这是从I从一到N啊，每一个样本点都给你一个cos i。

允许每一个样本点都有一个所谓的松，弛的一个约束条件，但是很显然有些同学就不需要是吧，我本来觉得就挺好，为什么要到那边去呢，那他的cos就是等于什么等于零啊，这个时候因为我们知道它是大于等于零嘛。

有些cos可能就是零啊，绝大多数都是零啊，还符合那个距离是严格大于一的，但是某些样本点或者某些同学，他就是愿意跑到这边来看一下是吧，所以这个时候这些样本点的cos i就是大于零的，就可以了。

但是你不能都跑过来啊，所以说你在总体的COCI的和上，还必须要进行的小，所以说从这个角度上，我们就解决了所有的软件格问题，还有什么问题吗，就是这个目标还有什么问题吗，当然如果能够把这个问题求解出来。

最后分隔超平面和我们的角色函数也有了是吧，那么看下面，因为你的这个优化目标发生了变化，所以所对应的拉格朗日函数就需要发生变化，因为我们前面刚才说过，拉格朗日函数的构造分两步，第一步原优化目标哎。

这是增加了COCI以后的语言优化目标，那么除了这个优化目标发生了变化之外，还多了一个优化条件，可CI是大于等于零的，前面我们讲到，我所有的优化条件，都需要用它所对应的拉格朗日乘子。

那这个时候你的拉格朗日乘子，就除了那个阿尔法I之外，还有这个里面的mi啊，这里的阿尔法I对应的就是那个函数间隔啊，函数间隔，这里的mi对应的就是COSI大于等于零的条件，那这个时候圆优化目标就变成了。

在两部分的基础上，那个约束条件又分成了两部分，好吧，这是在函数间隔乘以函数距离乘以阿尔法I，因为你是有N个，所以I从一到N，你的CCI啊是大于等于零的，就是负cos i是小于等于零的。

每一个乘以一个mi，你的每一个cos i啊，都对应一个样本点，有多少个样本点，有N个样本点，所以得到这个式子稍加整理，得到下面的形状啊，这是引入拉格朗日乘子之后的拉格朗日函数，第二步啊，套路啊。

套路是一样的啊，第二步还是求极小，求极小呢，这个时候就需要对W和B啊，分别求偏导等于零就可以了，因为这个地方还多了一个COCI，所以还需要对cos i求偏导，那我看一下对W求偏导哎。

同样这里的W求偏导就变成W这一项没有W，不管后面这里还有一项W和我们的原式是一样，上面那个式子是一样的，因为后面不包含W同样得到这个表达式，对B求偏导，这这都不这都没有B啊，这还是刚才只有一项是B。

所以得到的还是刚才那个式子等于零的，对cos i求偏导啊，这一项没有cos i啊，这一项带着cos i，注意是对COCI来求偏导，那么在这个累加过程当中，只有一项是可CI，所以你得到的是C和CI。

一求偏导就变成一，所以第一个是C，然后还有哪COCI这个地方还带着COCI这个地方，前面因为有一个阿尔法I，所以对cos求偏导就变成了阿尔法I啊，阿尔法I，然后呢后面有一个COCIA求偏导。

变成得到一个mi啊，所以整理一下就变成了C减去阿尔法I，减去mi是等于零的，同样我们需要这样的话，第二步第二步就求出来了，同样需要把这个W带回到原拉朗日函数，然后呢稍加整理，稍加整理就得到这个式子。

得到这个式子，在这个式子当中，我们可以看到这个地方用到的，就是那个他这一部分用到的就是这一部分，等于它，所以得到最终结果，这是零，这是零，剩下的这个下来，这个下来啊就得到了这个这个式子。

那么第三步求极大啊，第三步求极大，就变成了这样的一个带约束条件的最优化问题，同样这个问题也是SM来解决的，我们暂时先放在这好吧，那么到此为止啊，到此为止我们就啊还没完，这还介绍一下关于那个CCI的问题。

其实这个问题啊刚才已经讲到了啊，就是关于COCI的取值的问题，cos n是大于等于零的，只有这么一个条件，当这里的COCI等于一的时候，我们知道1-1=0，你的函数距离是零。

意味着允许某些样本点出现在分类调平面上啊，如果你是一个二，那么允许跑到分离超平面的另外一侧hr上啊，如果这是他大院，大院意味着可能会跑到另外一侧更远的距离上，所以说这里的COCI是一个非常重要的变量。

它可以通过不同的取值啊，不同的取值可以得到一些相对应的位置，相对应的位置，那么这些相对应的位置，就会造成我的数据集就不再是线性可分的啊，也就解决了刚才我们所说的，它是可以通过松弛变量啊。

就是可CI来解决，一定程度上去解决所谓的线性不可分的情况，因为很显然这里啊很显然这里前面我们也说了，不能够太多啊，就仅仅是允许个别的样本，跑到了分离超平面的另外一侧啊，那么到此为止呢。

我们介绍的就是关于软间隔的部分，关于软件部分，看看有什么问题吧，如果没有问题的话，我们就继续往下啊，硬间隔软间隔完了以后，第三部分是合技巧好，有同学说这个软间隔人家已经很好了是吧。

人家已经把这个线性不可分解决了，你为什么还有个合集呢，看这个例子，正样本是圆圈外围一圈，负样本在中间扎堆一堆，那这个时候你会发现硬间隔是不用想了，他肯定解决不了这个事，软件隔行不行。

我说这个嗯好像软件隔应该问题也不大吧，是软件隔在一定程度上也可以解决这个问题，但是很显然，对于他的这个性能来说是非常糟糕的，为什么，因为他必须要比如说举个例子，比如说我们的分离变量放在这。

它必须要允许大量的CCI是大于等于二的，才可以是吧，因为因为这个时候他都跑哪儿去了，他都跑到另外一侧很远的距离上去了，所以这个时候他即使能够得到一个所谓的，分离和平面，这个性能也非常的嗯。

不好不好的原因就在于什么，不好的原因就在于，你这个，你咳咳咳咳，不好的原因在于，你这个线性不可分的程度太夸张了啊，太突出了，以至于我已经很难去通过适当的去呃，放松一些约束条件。

来找到所谓的最优分离超平面的问题，那好了，这事干不了，但是啊你想一下我能不能这样去做，你看看上面这个空间和下面这个空间，很显然如果是这样的数据集，而我是没有问题的是吧，我是没有问题的，能够解决的到。

那你看看你能不能通过一种方法，把上面这个空间映射成下面这个空间，很显然是可以的，怎么可以啊，第一步你沿着X1这个轴上下对折，第二步沿着X2这个轴左右对折，你想想得到的是不是，大约应该是右下角这个形式。

所有的负样本都集中在这一侧，而所有的正样本都集中在上面这一侧，你会发现啊，当在某些空间里面，线性不可分的数据存在的时候，往往到了另外一个空间，它其实是线性可分的对吧，所以这个时候问题就转化成了。

我能不能在线性不可分的空间出现的时候，找到一种方法，把它们映射到一个另外空间里面去，而在另外一个空间是线性可分的，那这个时候我只需要在这个新的空间里面，来使用硬件额，或者说呃软件格是不是有问题也解决了。

所以问题就变成了一个空间映射的问题，那怎么去找这个映射就变成了关键，看下面这就是和技巧的含义啊，和技巧就是告诉我们啊，这么一个技巧，可以使得你能够在原线性不可分的空间里面，把它找到一个线性可分的空间。

这不就很好吗，这还不是全部，一会我们再说它更所谓的技巧的体现在哪，好了，我们继续看怎么去干这个事，那好既然是空间的映射，那就是映射呗，假设XYXYX是我们的输入空间啊，花X是我们的输入空间。

然后呢花H啊，花H是我们的特征空间，那这个时候如果存在一个从花X到花H的映射，对吧，你给我一个X，我就把你映射到H里面去，你给我一个X，我先把你映射到H里面去，那这个映射呢我们用FX来表示啊。

FX来表示，那这个时候很显然，我如果把你映射到了是空间里面去，每一个X都映射成了一个FX，那我只需要在如果原空间是线性不可分的，我只需要在这个H空间里面都变成了FX了啊，都变成FX了。

哎我看一下是不是线性可分，OK不就完了吗，是吧嗯，事情还不这么简单啊，还不这么简单，为什么不这么简单呢，看下面映射到了H空间里面去以后啊，映射到空间里面去以后，好像我们只要做个线性可分就可以了啊。

但问题在于这个空间你怎么找就是个麻烦事，好了，我不管怎么找啊，我不管怎么找，我回过头来看一下我的优化目标，我在这个优化目标里面啊，哎哎这个地方可能细心的同学注意到了啊，不细心的同学可能就过去了。

为什么在这个阿尔法IY，阿尔法g yi yg xi xg当中，你单独把这里的xi和XG，单独拿个括号括起来了，当然因为这里的xi和XG和前面的阿尔法，和这里阿尔法I和这里的阿尔法GYIYG。

不一样的地方在于这两个是什么，这两个是向量，而且要做向量内积是吧，叫做向量内积，也就是说啊在我们的优化目标里面啊，在我们的优化目标里面，我们其实关心的不是一个一个一个的X啊，不是一个一个的X。

而关心的是任意两个数据之间的内积，这是我们要的结果，我不管你是谁，我不管你是哪个X，我要的其实是X和XG的内积的结果，那这个时候也就是说啊，其实我们并没有必要啊，没有必要。

我们非要找到那个H空间再做一个线性可分，我们只需要把它能够找到那个内积的计算，就可以了，因为我们就是要，也就是说我们没有必要从X把你映射成FX，我只需要把这里的XIXG的内积。

映射成FI和FG是不是就可以了，有同学说你你你每一个都映射过去以后，做内积不就也就映射过去了吗，这是可以的一种方案，但是你需要把它们认成是认为是一个整体，这个地方你就不再认识xi和XG了。

你现在的你现在看到的就只有xi内机，XG以后的这个整体了，刚才我们的策略是，分别把样本点映射到空间里面去，然后再从样样本点那个H空间里面做内积，现在我干脆对吧，你反正要的是个内积值嘛。

我现在干脆就是把这个内积值，直接映射到一个所对应的FXI和FX这里面去，是不是就可以了，这是一个技巧啊，希望大家能够就是一个一个观点啊，能够能够能够转变过来，那么好了，看下面假设哈，假设我能这样干。

而且呢这个函数我还能找到什么函数呢，就是我内机映射到H空间里面去，之后的这个内积结果呢是等于一个KXZ的啊，KXZ的，你看这里的X和Z是我们在原X空间里面的，这里的FXYZ是我在H空间里面的。

而这里的FX内积FZ也是H空间里面的，最重要的一点来了和技巧体现在哪，你看看左边这里的K是个什么东西，K当然是内积的，这里的FX和YYZ的内积值或者内积结果，重点在于它这个内积计算的结果。

居然是使用的什么样的参数，换句话说，这里的X和Z分别是哪个空间里面的原画，X空间里面的，也就是说结论是什么，结论在于我们只需要在原空间里面知道XZ以后，如果我在知道所谓的K所谓的核函数以后。

代入到核函数空和函数当中去，计算一下这个核函数，我得到的这个结果，就等价于，我分别把X和Z映射到H空间里面之后，再做内积的那个结果是一样的，因为是等号，换句话说，这个H空间我压根就不需要找，我不知道我。

我不关心他到底是在哪，我只需要知道谁，我只需要知道这个核函数就可以了，因为核函数告诉我们，你在原空间值带进来以后，得到的这个核函数结果，就等于你把它映射出去之后，然后做内积的结果是一样的。

这就是所谓的技巧的体现，我不知道大家能够理解到多少，有什么问题吗，我再唠叨一遍，你再体会体会，我们的线性不可分问题，已经在原空间里面搞不定了，所以我们的策略是什么，我们的策略是原空间搞不定。

我就搞一个其他空间啊，但当这个嗯不妨在其他空间里面，我就可以把原空间里面的线性不可分问题，搞成一个线性可分了，所以我们需要有这么一个映射，从原空间向随便哪一个空间里面的映射，这个映射我们把它称之为FX。

那么我们寄希望啊，我们寄希望映射之后的这个FX空间，在H空间里面的FX是无限可分的啊，这是我们最初的一个很朴素的一个想法，通过分析我们会发现嗯，我们要做的啊，我们要做的其实并不关心每一个X之后的FX。

我们更关心的是X内积X以后的那个FX内积FX，因为我在原空间其实更关心的是内机制，所以我更关心的是映射出去的那个内积值，而映射出去的内积值就是FX乘以FX，我更关心的是这个货啊，这个东西。

那这个东西呢唉这个时候谁出现了呢，核函数啊，可以说是嗯怎么说凌空就出现了，和函数这个时候挺身而出，告诉我们告诉我们什么，你要的那个在H空间里面，FX和FX的内积，就等于你不需要映射。

the x带入到我和函数去以后的，这个值和你映射出去的结果是一样的，这个时候就太啊可以说是太舒服了是吧，这个时候你会发现，你的目标居然可以使用这么一个东西啊，这么一个核函数的那个东西就解决了啊。

这就是所谓的和技巧的一个，非常重要的一点体现啊，这个问题啊其实怎么说呢，在就和技巧上，并不仅限于在SVM当中的使用啊，很多的场景当中都会使用到和技巧，就是在原空间里面这个问题解决不了。

我寄希望于到其他空间里面去看看，有没有碰碰运气，但是呢这个时候麻烦就在于，其他空间的选择太多了，我又不确定我到底跑到哪儿去更合适，那这个时候你会发现，如果你的原空间的问题。

是基于一个内积计算的问题的时候，哎这个时候你就可以试一下，使用一下核技巧或者核函数，因为核函数告诉我们啊，你在其他空间里面的映射之后的那几结果，就等于在原空间里面的核函数。

结果你就没有必要去找哪一个空间了，这个时候你只需要带入的核函数就可以了，好吧，那这个时候和函数这么神秘，它到底长什么样呢，啊，这个时候就是数学的那帮同学，给我们很大的帮助啊，他告诉我们啊。

和函数呢有很多种啊，啊这几种都可以完成刚才那个性质啊，我们常用的呢第一种是所谓的多项式和函数，也就是说，你把X和Z分别带入到这个式子里面去以后，得到的这个结果就等价于在某一个空间里面。

分别进行内积计算的结果啊，至于哪个空间你不需要了解它，也不需要关心它，对你只需要知道和函数，这样满足这个性质就可以了，多项式核函数，另外一种呢称之为高斯核函数，也叫镜像集合函数啊，是同一个东西啊。

形式就长得比较怪了啊，这个地方为什么长这样，有兴趣的同学可以找一本这个呃，这个深入的讨论的讨论和技巧的书，再看一下，这个时候我们现在就拿过来直接用就可以了啊，讲到这个高斯核函数啊，或者镜像机核函数。

这个就像刚才我们所说的啊，就是想当年啊10年20年以前啊，这得怎么着，得20年以前了，这个你看看这个各种各大期刊啊，机器学习方向的这个paper啊，很多种情况都是什么，基于什么什么改进的镜像集合函数。

在什么什么场景下的应用的研究啊，就这么个东西是不是非常类似于现在对吧，什么什么的神经网络的什么什么的，基于什么的东西，在什么什么领域里面的应用的研究非常类似啊，就这么一回事啊，就这么个东西。

其实我们已经推进到哈，推进了大约10年啊，这个推进到20年以前那个状态了，好了不多说了，那这个时候怎么办，有了即使有了核函数以后，我们仅仅需要把它把那些内积计算的位置，替换成核函数就可以了。

因为我们刚才已经解释到了啊，你这个地方原来是xi内机XG，而你的映射出去之后无非就是FXI内积FXG，而我们知道FXI以及FXG就等于在原空间里面，XY和XG的核函数的计算。

所以你会发现原来空间的线性不可分，通过这一系列的转化转化成了啊，在H空间里面的线性可分的问题可能存在啊，这个地方还不能确定，因为你会发现这里都是带参数的，你的参数设置的不对嗯，得到的结果性能也不好。

很重要的原因就是，你通过这个核函数映射出去的，那个呃那个那个那个那个空间啊，也不太合适啊，所以你需要调参数啊，调到一个诶满足映射规则啊，又可以进线性可分的这么一个空间里面去，那个时候性能会非常的优秀啊。

至少比你硬使用那个软件格啊，在当前空间里面的性能要好很多好吧，你会发现下面的问题啊，你会发现结论就很简单，就是把那个xi和XG的内积用核函数替换掉，但是你会发现A原理或者技巧还是很重要的，下面的问题啊。

其实就和我们前面讲到的是一样的了好吧，那么S3O啊，看看这个这个和技巧还有什么问题吗，没有什么问题，我们就继续了啊，SM序列最小的优化，这个地方不展开讲啊，只讲一下它的基本原理，基本原理。

当我们碰到这个问题的时候，你会发现他现在长的是，这有些有些面目狰狞了是吧，这怎么长成这样，这个问题怎么怎么搞啊，搞不了啊，我们仔细的分析一下，让它主要矛盾在哪儿啊，主要矛盾呢。

其实就在于这个最优化目标的优化目标太多，因为前面我们讲到过，这里的阿尔法I是我们的拉格朗日乘子，这里的拉格朗日乘子有多少个，有N个拉格朗日乘子，换句话说，我们需要找到N个值的最优值，就N个变量的最优值。

阿尔法一到阿尔法N阿尔法一型，一直到阿尔法N型啊，都找到最优值，这个时候一下子要处理N个问题的，就是N个变量的最优化问题呢是比较麻烦的，那怎么办，我们把这个问题呃，约就是就是怎么说呢，这个简化一下啊。

简化一下，我每次啊不是直接对着N个变量进行最优化，我只选择其中的两个啊，你不是N个吗，我只从当中去挑俩啊，挑俩顶主优化，所以你会发现，选择阿尔法一和阿尔法二两个变量。

其他的阿尔法三移到阿尔法N我固定下来，所谓的固定下来就是给他一个随随机值啊，或者给他一个零值，最最最最零行不行啊，可以啊，这个时候也可以，这个时候你就可以固定一个值，那么问题就变成了。

只含有两个变量的最优化问题了，唉这个时候马上问题好像就嗯，不那么的复杂了是吧，两个随机变量，而且更重要的是什么，更重要的是，这两个随机变量之间其实还是有关系的，因为我们会发现。

代入到这个这个这个等式里面去，因为我们已经把阿尔法三，一的阿尔法N认为是常量了，所以你马上会得到一个关于阿尔法，一和阿尔法二的一个表达式，而这个时候你再把关于阿尔法一或者阿尔法的。

表达式表示成其中的一个的形式，所以你会发现即使是两个变量，也变成了关于一个变量的表达式的问题，用其中的一个表示另外一个嘛，所以你会发现整个的问题就变成了什么，变成了基于一个问题的优化目标啊。

我们一步一步的看哈，从这一步到这一步，我们所说过挑两个变量，哪两个变量其实是有规则啊，我们假设就是阿尔法一和阿尔法，那这个时候会得到下面这个式子，下面这个式子得到的就是。

注意用刚才我们所说的这两个过程啊，你需要进行交叉对应，交叉对应这边是R1到N，这边也是从一到N123，这是I的取值啊，一点点一直到N的取值123。1直到N，因为我们说过，我们只要求保留。

因为我们这个java我们刚才说过，他是这样交叉的一种形式是吧，所以说一的我们需要保留二的，我们需要保留包含一的，我们都需要保留，包含二的我们都需要保留同样G的，包含一的，我们都需要保留G的。

包含二的都需要保留，这一部分都变成常量值就不管了，注意啊，刚才我们说过，你从一开始，因为这个地方有交叉，有交叉，所以阿尔法一为这个记住你从阿尔法一，阿尔法2。2，点一到阿尔法N的里程都需要保留下来。

因为带着阿尔法一同样带着阿尔法二，也需要从阿尔法一，阿尔法二一定要点一到阿尔法N，只有那些纯只有333435，这些都作为我们的已知量啊，这个地方我们就不作为优化目标了，所以问题就转换成下面这个问题。

而在下面这个问题当中，你会发现只保留了阿尔法一和阿尔法二，以及阿尔法一和阿尔法二的交叉项啊，这个问题就相对比较简化了，而且更重要的是，在这里刚才讲到过，阿尔法一和阿尔法二作为变量。

右面那些就变成了一个常量，但是你会发现你会发现，如果把阿尔法也扔过去以后，它做一个变量扔过去以后，你建立的是阿尔法一和阿尔法的一个关系，然后再把这个关系还可以回，带回我的优化目标里面去。

这个时候整个的优化目标里面，就只有包括只有阿尔法一，那这个时候一个变单变量的优化问题，就很好解决了是吧，所以说啊这个思路是这样的一个思路啊，这个具体的细节呢展开其实还有很多细的地方。

我们这个地方就不再展开讨论了，有兴趣的同学可以看一下，好吧，这是SMO，然后呢应用啊这个地方也举了一个例子，有兴趣的同学还是那样，回去以后呢可以看一下它的使用方法，那这样的话。

这一部分内容我们就算是告一段落了啊，回过头来看一下我们的第一部分内容，直向量级目标就其实就是找一条直线啊，把这条直线找出来以后，带入到呃觉得函数里面去啊，绝对函数也就有了这几步啊，这几步。

线性可分的硬间隔啊，就是这个量线性可分的硬间隔，线性不可分的软件格允许某些样本点对吧，线性不可分啊，引入存储变量最核心的还是所谓的核技巧啊，你的内积计算，我把它都通通的映射出去，而映射出去之后。

它居然是等于和函数本计算，而且核函数是在原空间里面完成的啊，这太重要了，SM和应用回去我看一下，看看这一部分还有什么问题吗，没有问题的话，我们就继续，Ok，嗯刚才我们介绍的是支持向量机这一部分的内。

容好吧，然后呢这个按照我们的课表安排，我们需要把这个朴素贝叶斯也做一个介绍啊，为什么要介绍这个东西呢，一方面呃朴素贝叶斯模型啊，是到了这个概率模型的一部分啊，他需要进行大量的概率计算，在一开始的时候。

我们介绍过这个模型分两种是吧，绝对绝对函数的形式和这个条件概率的形式，那么以以条件概率的形式的模型呢，嗯朴素贝叶斯模型体现的是比较明显的啊，这是一方面，他可以处理这个条件，概率模型其实更重要的一方面。

从这个关系图上，你会发现它后面我们会讲到这个hmm和cf啊，他其实可以认为是为这个hmm和cf，做一些前期的一些准备，特别是一些基本规则的使用啊，包括什么加法规则，成绩规则，贝叶斯定理，这些东西。

你都必须要在这个普通贝叶斯这一部分，都必须要把它处理掉，从而到了这些更复杂的模型的时候，你才能不能说是游刃有余吧，至少是能够有这么一个印象啊，否则你看看后面更更加的这个这个张牙舞爪啊。

以后比如说hmm你需要使用到期望最大，又是1111系列的概率计算，cf里面需要使用到最大伤，又是一系列的复杂的概率计算，这些复杂的概率计算的基础，其实都可以在朴素贝叶斯这一部分啊。

这个争取能够把它处理掉啊，到了后面你拿来直接用结果就可以了，否则的话很多同学啊说这hml cf cf难理解原因，我觉得更大部分是你之前没有做铺垫好吧，我们把这个地方把它介绍一下，呃在讲普通贝斯之前。

先补充两条基本规则啊，这两条基本规则会贯彻或者贯穿后面，我们的一系列的概率模型啊，包括XMM和CRF，其实就是这两条基本规则的反复的使用，没什么别的，其实如果再说得绝对一点儿啊，再复杂的这种概率模型。

包括后面，比如说如果有兴趣的同学，看一下后面那个LSPLSALDA，什么蒙特卡罗，那个什么吉比斯抽样，其实都是很复杂的一些概率计算，但是再复杂它也是这两条基本规则变化，这就使用那哪两条规则。

第一条规则称之为是加法规则，或者叫加和规则，这都没问题啊，加和规则呢简单点说就看下面这个形式就可以，他说的是PX，一个随机变量X的概率值或者概率分布是吧，我们把它称之为边缘分布，一般把它称之为边缘分布。

边缘分布是一个随机变量的概率分布，那么看右边右边是PXY啊，是两个随机变量的联合概率分布啊，联合联合概率分布，那么很显然，左边和右边单从这个这个这个概率分布上，很显然是不相等的啊，概率肯定是不相等的。

那么怎么相等呢，再加上一个求和sum求和，左边和右边就相等了，这个怎么理解啊，这个我们今天不是数学推导，所以你可以这样理解，左边是一个随机变量，右边是两个随机变量的联合概率。

那么很显然右边多了一个随机变量，那么怎么把右边多的这个随机变量去掉，就是个核心问题，或者说把它的影响去掉是吧，那它的影响是什么，它的影响就在于随机变量的不确定性，它就是一个随机变量嘛。

他当然他有不确定性，造成了多出来这部分，那怎么把它的不确定性去掉，那好了，我们知道，如果一个随机变量在所有的可能上机型，就所有取值上所有可能的取值上进行取值以后，它的概率和为几，概率和为一。

所以从这个角度上去讲啊，就是你可以这样来认为，你认为既然我把随机变量加，就是这个随机变量加入到联合概率当中去了，但是如果我能够进行一个对当前随机变量上的，一个概率求和。

那这个随机变量的这个影响也就消除掉了，也就退化成了一个随机变量的概率分布，所以啊这就称之为加和规则啊，那这个时候呢你这么理解就可以啊，那怎么用右呢，就分两种情况，一种情况呢从右往左右。

是不是要从右往左右呢，就是当你看到一个随机变量的概率分布的时候，你可以你可以想象一下，如果这个公式太长是吧，这个不好推，推不下去了，你看一下是不是，其中某些单变量的这个概率分布。

可以展开成两个联合概率分布的求和的形式，两个随机变量联合概率分布的求和的形式，而这种形式是不是有助于你后面的公式推导啊，这是从左往右，从右往左右呢，其实就是个约点或者，优化是吧。

原来是两个随机变量的联合概率分布，两个随机变量，但是呢求和以后，它退化成了一个随机变量的边缘，概率分布的形式，那这个时候还没有另外一个随机变量了啊，这不是有助于我们进行公式削减是吧，这是加和规则。

成绩规则说的是什么，看下面嗯，乘积规则说的是PXY，两个随机变量的联合概率分布啊，它等于什么，它等于在X条件之下的条件概率分布乘以PX，那么很显然啊，左边是两个随机变量联合概率分布。

右边的是条件概率乘以边界概率，同样你怎么理解啊，你理解起来就可以这样认为，本来他是对吧，两个随机变量构成的概率分布，具有两个变量的不确定性，那么这个时候的右边，其中X作为的条件作为条件。

意味着X已经被确定了，那么意味着当前随机变量，X的不确定性就没有了，因为它作为条件了是吧，那这个时候是在X确定之后，随机变量Y的条件概率，那么很显然这个时候左右两边是不相等的。

其中最大的一部分原因就在于，一部分原因就在于你这个X被确定了，已经失去了所谓的不确定性，那这个时候怎么办，你可以这样理解，你再把这个P把把这个X的不确定性还原回来，不就可以了吗，怎么还原回来。

那他作为一个既然是一个随机变量，那它PX不就是它的概率分布吗，那这个时候他从一个条件又做，又还原成了一个随机变量，那这个时候和两个随机变量联合，概率分布是不是就可以相等了，当然还是那样。

这不是一个严谨的数学推导，实则你可以这样理解，怎么用，同样分两个方向，第一个方向同样是从左向右啊，当你碰到一个碰到两个两个随机变量，联合概率分布的时候，你可以马上反应过来。

他可以拆成条件概率和边缘概率的乘，积的形式啊，这样的话你展开以后哎，这个时候每一部分是不是和其他部分，进行一个结合啊，可以进一步的向下控制推导啊，这是一种使用，那么另外一种使用呢就是从从右往左嘛啊。

当你看到一个条件概率和边缘概率乘积的时候，哎马上反应过来，它其实就是两个随机变量的联合概率形式，在这个时候把它放在一块儿啊，这个时候是不是对其他的公式的推导，带来一定的帮助是吧好了，这是以上的分析。

你可以完全不记记什么，就记把这两个公式形状记住就可以了，左边是边缘概率，右边是联合概率求和，左边是联合概率，右边是边条件概率和边缘概率的乘积啊，就这么记住，用的时候拿过来比较一下。

分清楚谁是X谁是Y就可以了，那关于加号规则和程序规则，看看有什么问题吗，没有问题，我们就继续往下，那朴素B也是解决的是什么问题，朴素贝叶斯解决的也是所谓的分类问题，首先我们拿到的数据及TX1Y1。

一直到XYN，那这里呢所有的X和Y啊，都是根据我们的联合概率分布，所谓的独立同分布产生的，这个你知道就可以了，其中xi也是一个RN的啊，也是个N维的向量YI这个地方注意不一样了，它等于什么。

等于C1C2，遇到C大K那么也就意味着这是一个什么问题，是一个离散的分类问题啊，这是很明显的，那么第二需要明白的，这里的分类不限于二分类，它是一个大K分类啊，具有大K的类别，换句话说啊。

这个朴素贝叶斯模型，可以处理所谓的多分类问题啊，多分类问题样本点由一到N个啊，一到N个，这个地方就不得不多解释了，和我们前面都是一样的，看下面啊，在这个地方数据集我们介绍完了以后。

介绍一个所谓的条件独立性假设，什么叫条件独立性假设嗯，看见没有，条件独立性假设的左边说的是什么，说的是我们的标签Y4Y等于K，Y是我们的随机变量啊，是我们的标签的随机变量。

它等于CKCK是我们的一个类别啊，是我们的一个类别，当我们确定了这个标签是某一个类别的时候啊，这个时候作为条件的时候，我们把X等于X啊，作为我的一个所谓的条件，概率啊。

条件概率是在标签被确定以后的概率分布啊，指条件概率，按照左边这个条件概率啊，我们把它展开怎么展，这个条件还不变，还是Y等于CK啊，这没什么太大的问题，你看看展开时把我们的随机变量X，因为我们前面介绍过。

随机变量X是有N个维度的，那么这个时候把这里的随N个维度的随机变量，X把按照维度也展开，展成什么，展成X1等于X1，X2等于X2，遇到XN等于XN，你不是N维吗，每一位我都把它展开，是随机变量等于X1。

随机变量等于X2，随机变量等于XN，那这个时候再看一下这个式子，就变成了一个什么，他首先肯定是个条件概率，条件概率就是Y等于4K啊，Y等于4K是没有问题的，但是呢其中按照这N个维度展开以后的X1。

一直到XN这些变量在形式上，如果我们不看这个啊，不看后面这一部分，这一部分就变成了一个什么，变成一个联合概率，你可以认为是在条件之下的联合概率分布啊，带着这个条件的联合概率分布。

那带着条件的联合概率分布，会对我们的计算带来非常大的麻烦，为什么这么说，回到刚才两回到刚才那个加号规则和规则，我们看一下，还记得PXY等于什么了吗，注意一下，这里的PXY仅仅是两个随机变量。

它就等于PXY条件之下，然后乘以PY，没问题吧，这个地方需要强调的一点是什么，当两个随机变量是联合概率分布的时候，它是等于其中的一个被确定了以后，另外一个的条件概率乘以根源概率，这还仅仅是两个随机变量。

麻烦麻烦的，如果是三个随机变量XYZ联合概率，你怎么把它展开，其实也规则很简单啊，就可以把它先以XY作为一个整体是吧，在Z作为条件之下的推荐概率，然后再乘以PZ是不是就可以了，哎这个时候他怎么办。

那再展开嘛，他也是个联合概率吗，按照联合概率就变成X在YZ条件之下，再乘以一个外在条件之下，再乘以一个PC320号，干三个随机变量嘛，就是先把前面两个人为一组，然后这样的话是两个联合概率展开。

然后再把它展开，是不是就这样形成，这仅仅是三个四个呢，步骤是一样的，但是很显然展开这个形式就很复杂了，好了，回到我们的问题当中来，问题啊，这还不是一个两个三个四个的问题，这是几个，这是N个。

这个N很显然是个这里的N啊，就是他这个维度还不低啊，还不低，那这个时候很显然，如果按照刚才我们联合这个这个联合，概率分布的形式展开呢，我们的计算复杂度就太高了，那这个时候怎么办。

看下面这个时候我们就干脆干脆什么呢，干脆我就认为这N个随机变量彼此之间啊，彼此之间不用再按照0号概率展开了，直接把他们的概率分布进行一个相乘就可以了，什么意思呢，就像刚才那个例子啊，就像刚才那个例子。

如果我们以两个随机变量为例，如果我们以两个随机变量为例，PXY按说是应该等于PX，在外条件之下乘以一个PY，这是我们的乘积规则吗，现在我看一下你这个啧按照这里的规则啊，你必须是在外条件之下，X条件概率。

这个时候我直接令它等于PX乘以PY，就不再考虑这个条件概率的问题啊，就直接令PX等于PY，那这个时候你会发现诶，原来中间出现了这么一个式子，什么式子呢，P在Y条件之下，X的条件概率居然等于PX了。

那也就意味着你这个里面的随机变量，Y确定还是不确定，已经对X不产生任何影响了，因为你会发现这个条件概率就退化成了边缘，概率嘛，你这个条件就不起作用了，那这个时候我们认为X和Y是彼此独立的。

回过头来看一下，如果出现这种情况，你会发现这个时候X1X2遇到XN等于XN，我们就令令什么，令这些条件概率通通都不再加以考虑，不管你后面什么条件我都不管了，那时候只需要考虑什么呢。

我只需要在Y等于K这个条件保留的基础上，把其中所有的X1等于X1，X2等于X2，一直到N等于XN进行美称就可以了，其实就像这里，你会发现我不管你这个条件概率了，Y直接进行累乘，PX乘以PY。

OK3个变量也类似，N个变量就只是在保留标签的基础上，把对应的特征相垒成就可以了，里程意味着这里的X1X2，一个XN不再受约束条件的这个约束，意味着彼此之间没有这种约束关系啊，没有这种条件约束关系。

也就意味着所谓的独立的，那这个时候回来回过头来看一下，所谓的朴素贝叶斯模型的一个非常重要的概念，叫做条件独立性假设，注意这里的条件讲的是标签，在标签一定的基础上，各个X彼此是独立的。

称之为是条件独立性假设啊，这个时候条件独立性假设是带条件的，这里的条件说的是标签，经常会问到这个问题啊，经常会问到这个问题，天线组件假设什么意思啊，很多同学反应的很快啊，就是X彼此之间是独立的。

你确定吗，确定那什么叫条件独立假设，一定要告诉告诉这个提问的人啊，你是知道的，这个标签一定的基础上，X彼此之间是独立的啊，所以你会发现这是条件之下的独立性假设啊，可以把它们进行垒成好吧，那关于这一部分。

看看有什么问题吗，没有问题的话，我们就继续往下好吧，有了条件固定假设以后呢，我们看看所谓的那个BS规则，BS规则呢，其实也是根据我们的这个成绩规则来得到的，为什么这么说呢，看下面这个式子，看上面第一步。

首先还是XY的联合概率分布是吧，按照我们的这个乘积规则，我们可以把它写成条件概率和边缘概率的乘积，但问题就在于啊，刚才其实可能有同学意识到了这个问题，意识到什么问题呢，PXY的展开式有两种方式啊。

一种是PX在Y条件之下乘以PY，还有一种呢是PY在X条件之下乘以PX，因为我们知道联合概率分布其实不嗯，就是没有所谓的这个顺序，所以它符合交换律是吧，符合交换律PXY等于PYX啊，你还Y的分布啊。

这个是我们根据这个联合概率分布呢，就可以展成两种形式，就像就像这2XY是吧，然后呢一种是以Y作为条件，X的条件概率乘以PY，另外一个呢是以X作为条件，Y的条件概率乘以PX啊，都可以。

既然展开以后会发现左边是相等的对吧，左边是相等的，既然左边相等，那意味着右边也相等，右边这两个式子相等，那右边这两个式子相等呢啊这两个式子相等的，那右边这两个式子相等，看看这里这两个式子里面的四个项。

四部分，一项两项三项四项，这四项哪一项是非常重要的一个东西，联想一下前面我们讲到过，关于这个这个这个这个条件概率，就是模型的问题，就是模型两种形态，一种是函数形态，一种是什么，一种是条件概率的形态是吧。

你看看这四项哪一项是最有意思的一项，核心放在这一项上，这一项说的是什么，这一项说的是条件概率，他说的是不是这项，不好意思啊，这不是这一项是哪一项，是这项这项他这个条件概率他说的是什么。

他说的是你给我一个X啊，给我一个X随机变量X的值，我能够得到的是标签等于CK的一个概率值，前面我们已经分析过这个问题，什么问题啊，就是你给我一个输入，我得到的是当前这个输入所对应的。

所有的输出的一个概率值，比如说三好学生，那个问题是三好学生还是不是三好学生，我输入一个同学的身高年龄体重学术成绩，我得到他是三好学生的概率是99%，他不是三好学生的概率是1%，那这个时候很显然。

我就可以以以此作为依据，去判断当前这个学生是不是当学生了，所以说这个部分是非常有价值的一部分，那好了，既然它非常有用，就保留在等号的左边，把其他的三项移动到等号的右边去看，下面我们就得到这个式子。

得到这个式子，既然我们左边是我们要求的目标，换句话说，左边就是告诉我们，你给我X，我给你标签的概率值，那右边很显然，我只需要把右边这三项分别计算出来以后，得到的那个概率值就是左边的这个模型，结果好了。

看右边这三项，右边这三项分母部分是PX等于X啊，边缘概率X的边缘概率，分子部分有一项是关于Y的边缘概率，另外一项是在Y等于CK这个条件之下，X的条件概率啊，这么三项，换句话说，如果把这三项都算出来了。

左边模型就有了对吧，那么这三项呢分别做一下变形啊，分别做一下变形嗯嗯，从这一步到这一步，我们看看从上到这一步，用了哪条规则，能看出来吗，分子部分没有变化啊，分子部分没有变化，分母部分变了。

分母部分从原来的边缘概率变成了联合概率，求和的形式，很显然用的是加法规则是吧，然后呢从这到这条用的哪条规则，从这条到这条，分子还是没变是吧，分子还是没变，分母变成了什么呢，分母变复杂了。

还分模这个地方有一个联合概率，变成了条件概率和边缘概率的乘积的形式，很显然用的是乘积规则啊，乘积规则，那么从这一条到这条用的是什么规则，从这条到这一条，我们看看啊，分子其实还是没变啊，分子还是没变。

分母变了啊，分母变了，分母变成什么呢，分母变成了在Y等于K的条件之下，然后呢X进行X行程，这是用的我们的条件独立性，假设这个不用推荐图片，假设我想说的是什么，我想说的是，这个推导过程。

其实就是我们后面不管是hmm还是cf的，推导过程是一样的，就是说我们需要构建一个左边的模型，然后呢，右边会是一会是一个非常复杂的一个概率计算，这个概率计算呢，我们需要通过反复的去使用加法规则。

乘积规则和相应的一些假设，把这个右边进行相应的变化，变化之后的这个右侧啊，就表示了我们可以进行一个计算，把这个计算结果复制给我们的模型，就得到了我们最终的训练结果啊，这是一个怎么说。

就是一个套路吧啊这么一个东西，那有了有了这一部分以后呢，除了定啊，得到这么多东西，你还需要把这些值算出来是吧，你还要把这些值算出来嗯，这些值怎么去算，我们就需要一点儿一点儿地去去去算一下啊。

好了有了这个结果以后，我只需要使得右边这个式子尽可能的最大化，那么他得到的那个标签就是我的分类标签，就像刚才我们所说的，99%是三个学生，1%不是三好学生，那很显然你这个标签就是三好学生呗是吧。

那问题就是尽可能的石油变最大化吧，右边这个最大化其实看一下，你会发现在这一步上，其实你就可以看到了，关于PX的边缘概率，其实它在分母上对于任意一个输入X以后，它的分母是不变的。

因为你这个地方你给我一个X5，就作为分母是吧，所以它的分母是不变的，换句话说，影响这个概率最终结果的只有分子部分啊，只有分子部分，你从这个，因为它的分母部分其实是个全概率求和。

所以从这个角度上你可以看到，也是不影响分母部分的，分母部分也不是不影响的，所以你只需要计算分子部分就可以了，好了，咳咳不重要啊，看一下下面的句子计算过程，那就分这么几步呗，啊分这么几步呗，哪几部呢。

这个，第一步求P8等CK第二步求在K条件之下，PX的添加概率啊，第一步求PY等于K，PY等于CK呢其实就是一个条件，概率就是概率值，概率值呢因为我们有数据集，所以我们用频率值来代替就可以了。

看一下这个计算过程，Y等于CKY等于CK，我们拿到数据表格对吧，我们最后的这一列是Y那一列，注意我们现在求的是Y等于CK，就是说这些列当中，这一列标签里面有C1C1C3C5C，反正怎么着吧。

反正就是我们的标签啊，有有有应该是K的取值是吧，K的取值，我求的是Y等于CK的概率，是不是我只需要计算一下，比如说我要计算Y等于C1，我只需要计算一下，当前这个表格里面有多少个是C1的记录。

比如说只有一条是C1，那这个时候分子就是一分母是多少，分母是我们整个数据集的个数是N，换句话说Y等于C1的概率就是N分之一，换句话说分子怎么来的，分子就是查一下有多少个CK是不是就可以了。

那这个时候我们看一下怎么查有多少个CK，我们前面讲到过查的过程是个便利过程，而便利过程我们可以用求和过程来使用是吧，你在求和的过程当中，我需要不断的去判断当前的标记是不是CK。

这个时候就使用到了那个所谓的指示函数，当条件成立，YI等于CK条件指数函数返回一，条件成立返回一，那这个时候求和过程当中就加了个一，当便利过程结束的时候，就把所有满足条件的这个YI等于K的个数。

进行了一个累加，作为分子部分，分母就是N，那这个时候得到的这个频率值就是用啊，就是付给了我们当前的Y等于K的概率值啊，这是这一部分，后面这个后面这部分就比较麻烦了，为什么这么说呢。

首先它是在Y等于K的条件之下，我分别计算XG等于XG的概率，那么首先处理一下这个分这个条件，那换句话说，我同样是在Y等于CK这个条件里面，意味着我们前面讲到过，我是从C1点点遇到CK。

我首先需要把这些每一个类别的元素都找出来，就像刚才我所说的，CK只有一个C2，举例子可能有五个等等，我把属于某一类别的数据分别都得找出来啊，到K比如说有八个，那这个所谓的条件就限制了。

当我在计算这个条件概率的时候，我仅仅是在它所对应的这个数据子集当中，进行频率值的计算，所以你会发现这个这个频率值的分母啊，先看分母，分母是什么，分母是刚才我们在计算过程当中计算的那个I，从一到N。

然后呢看一下条件指数函数的条件是否成立，为什么要这样做，就像其实刚才已经解释了，因为这个地方的条件概率，所以你仅限于在当前标签等于K的，这个子集当中来完成频率值的计算，所以分母啊。

所以分母首先需要遍历一下数据集，把那个当前为4K的那些元素找出来，比如说他是八对吧，就不再是个N了啊，这个地方就不再是N了，而是一个数据子集，很显然这个八是小于N的，这种地方需要注意。

再看分子分母搞定了，就是我在啊K这个子集里面去统计，我有多少个Y等于K的元素，分母分子分子说的是什么，分子说的是两个条件都必须要满足，第一个条件，就是我在当前这个数据子集。

就是刚才那个八个样本里面再去找找什么，再去找XJ这个DJ这个维度上等于等于谁啊，等于AGL，这里的AG对应的就是当前G这个特征上，可能的一个取值有多少个，有L格，这里的L从一到它的取值SG。

也就是说啊我满足两个条件，这个地方的条件是两个，第一个他是在K里面那个子集里面再找，再找XG等于AGL，如果有这样的条件都满足的元素，我把它记录一下，返回到求和里面去，当便利完成以后，唉比如说有两个。

那这个时候，在K条件之下，XG等于L的，这个条件就等于1/4或者0。5，好吧，那这个时候我们再看一下第二步设定这个特征，XG你看看你这个地方是第几个特征吗，这个特征可能的取值集合为AG1。

一直到AJSJ啊，这个含义就是我在第一个特征上啊，去看一下当前这个对这个特征有多少种取值，有多少种取值呢，看123，一直到SG当前这个特征的取值的可能性，条件概率，它的极大自然估计就是下面这个式子。

分母刚才已经解释了啊，你是在数据子集里面做统计分子呢，这两个条件是在数据子集里面，并且还需要满足XYG等于GL的元素的个数，作为分子，那这样的话你需要遍历整个数据集里面。

把所有这些可能情况都需要找到好了，有了这两项以后，根据公式计算结果就可以了，呃这个过程啊，这个计算过程在我们那个统计学习方法里面啊，李航老师举了一个例子啊，那个例子很能说明问题。

就是这是一个抽象的计算逻辑是吧，这个抽象的计算逻辑，你需要结合啊这个一个数据集啊，一个具体的数据集，你才能够真正的能够把它领会出来啊，真正的把它体会体会得到，这是关于这个极大自然估计这一部分。

看看有什么问题吗，如果没有问题的话，我们继续啊，下面一个呢称之为朴素，这个呃，不是估计BS估计呢简单一点，他就是处理一种特殊情况，什么情况呢，因为我们知道我们是用频率值来代替概率值，而频率值的统计呢。

是在我们数据集上来进行统计的，这个时候会出现一种情况，在于号称你的类别是从四一直到4K，但是你拿到了这张数据表，就有一种可能出现，某些类别里面是没有数据统计的啊，这是经常会出现这种情况。

比如说还是最开始那个例子啊，我们分三好学生，非三好学生，但恰好你拿到这个数据子集都是三好学生，你说这有什么问题吗，这很大的问题在于非三好学生的统计个数是零，而我们知道零作为这个分子是很麻烦的。

因为这个时候马上就变成了概率为零，比方说这不就是数据表里面本身的一个特点吗，是是因为你这个这个数据太极端对吧，你造成这种为零的概率的出现，但是我们知道实际情况不应该是这样，是因为你这个数据集有问题是吧。

要么数据量太小，要么你采样采的太太偏了是吧，那这个时候怎么办，这个时候呢我们简单处理，就是我在分子上加上一个值啊，加上一个数值，这个时候就保证了啊，当我们前面出现这种不存在的情况的时候，他还有一个啊。

它还有一个分子值，同样这个是既然你分子上加了，你的分母上要做适当的扩大，这个时候保证你这个比例不发生变化啊，这就是所谓的贝叶斯估计啊，这是一种技巧吧，算是一种技巧，当然如果你的数据集采样比较平均的时候。

这个贝叶斯估计呢其实也并不需要是吧，你可以看到啊，当这里有个参数就是拉姆达，当拉姆达等于零的时候，其实就是极大自然估计，但是这个时候当拉姆达等于一的时候，称之为拉普拉斯平滑，这是经常采用这种方式啊。

就是我加上一个分子上加上个一，来保证你前面这个基数统计为零的时候，概率值至少不为零是吧，你分子上发生了变化，分母上就适当的扩大就可以了啊，这个了解一下就可以好了。

以上内容呢就是我们今天所介绍的朴素贝叶斯，再做一个简单回顾，重点呢，其实我觉得比普通BS更重要的是，这两个规则的使用啊，这条规则直接导致了你后面模型的学习的，一个理解啊，这个回去好好看一下。

在朴素贝斯部分的独条件独立性假设，彼此之间是独立的，才能相乘，好吧，那么后面其实就是反复的在使用，你看加法规则，成绩规则，价值条件啊，这个时候你回去以后，好好的再理解一下就可以了。

看这部分还有什么问题吗，好如果没有问题的话，但是没有问题的话，我们今天就到这吧，有问题的话，及时在课程群里提出来，我们一块儿来讨论和解决，那这样的话我们今天就到这儿好不好。

posted @ 2024-10-23 18:34 绝不原创的飞龙阅读(26) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

七月在线公开课笔记-八-

七月在线公开课笔记（八）

【七月在线】机器学习就业训练营16期 - P5：在线直播：5-机器学习简介、广义线性模型（线性回归、逻辑斯蒂回归）精髓速讲_ev - IT自学网100 - BV1Z9T5ewEKL

【七月在线】机器学习就业训练营16期 - P6：在线直播：6-决策树、Boosting模型融合的精髓速讲_ev - IT自学网100 - BV1Z9T5ewEKL

【七月在线】机器学习就业训练营16期 - P7：在线直播：7-朴素贝叶斯、SVM模型精髓速讲_ev - IT自学网100 - BV1Z9T5ewEKL

公告