概述
机器学习致力于如何通过计算手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”的形式出现。
基本术语#
- 样本:在数据集合中的每条数据就称为一个样本。
- 属性/特征:反应样本在某方面的表现或者性质
- 属性空间/样本空间/输入空间:指的是某一特征下取值的范围。
- 输出空间:表示样例的分类的种类等。
- 学习/训练:通常指从数据中学到模型的过程。
- 任务的分类
- 分类任务:输出空间为离散值。比如,好坏瓜用0,1表示。
- 回归任务:输出空间为连续值。比如,好瓜用概率表示。
- 学习任务
- 监督学习:训练数据拥有标记信息,比如训练任务有标记好瓜和坏瓜。
- 无监督学习:训练数据没有标记信息。
- 泛化能力:模型能够正确处理没有在训练样本中样本的能力。
假设空间#
- 归纳:从特殊到一般的“泛化”过程,从具体的事实归结出一般性规律。
- 从一般到特殊的“特化”过程,既从基础原理推演出具体情况。
- 归纳学习:
- 广义归纳学习:从样本中学习
- 狭义归纳学习:从训练集中学习。
学习过程看做一个所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集”匹配“的假设。如果假设的表示一旦确定了,则假设空间的大小和规模就确定了。
比如判断一个瓜是否是好瓜的假设,其中瓜的属性为(色泽, 根蒂,敲声)如果,色泽,根蒂,敲声分别有3,2,2种取值的可能。则假设空间的规模大小为(3+1)(2+1)(2+1)+1=37。下面可以直观的表示假设空间:
可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果.
- 版本空间:有很多个假设与训练集一致,既存在着一个与训练集一致的”假设集合“。则称之为“版本空间”。
归纳偏好#
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称“偏好”。
注意:任何一个有效的机器学习算法读必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。如果没有偏好,本质上在进行预测试时随机抽选训练集上的等效假设。这样的话,如果是预测数据,那么学到的模型的几次调用会出现不同的结果。
奥卡剃刀:如果有多个假设与观察一致,则选择最简单那个。
结论:样本空间X和假设空间H都是离散的。令代表算法基于训练数据产生假设h的概率,令f代表希望学习的真实目标函数。则算法算法的误差为:
作者:ALINGMAOMAO
出处:https://www.cnblogs.com/ALINGMAOMAO/p/15022453.html
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探