DW吃瓜课程——机器学习理论知识笔记(五)
本篇是针对经典教材《机器学习》及DataWhale小组出版的配套工具书《机器学习公式详解》的学习笔记,主要以查缺补漏为主,因此对于一些自己已经熟悉的概念和内容不再进行整理。由于水平实在有限,不免产生谬误,欢迎读者多多批评指正。
第六章 支持向量机
基本概念
在对样本进行分类时,一个基本的思路是寻找一个划分超平面,将不同类别的样本分开。如下图所示,特征共有两个维度,而黑色分割线代表了当前两类样本“正中心”的划分超平面,它受样本区间波动的影响最小,因此具有最好的泛化性能。我们设样本特征维度为d,则超平面表达式中的为法向量,b为偏移项,这两个参数可确定一个超平面,记为。
样本空间中任意点到超平面的距离可写为:
而图中距离超平面最近的两个类别的样本所在的平行平面分别为和(这两个公式的形式一定可以利用参数变换得到),而上方蓝色样本满足,我们将其值定义为+1;相应的,红色样本的值定义为-1。其中两侧距离划分超平面最近的样本都被称为“支持向量”,二者到超平面的距离之和为:
(未完待续)
参考资料:
- 《机器学习》 周志华 著
- 《机器学习公式详解》 谢文睿 秦州 著
- https://www.bilibili.com/video/BV1Mh411e7VU?p=1 《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理