概述

机器学习致力于如何通过计算手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”的形式出现。

基本术语#

  • 样本:在数据集合中的每条数据就称为一个样本。
  • 属性/特征:反应样本在某方面的表现或者性质
  • 属性空间/样本空间/输入空间:指的是某一特征下取值的范围。
  • 输出空间:表示样例的分类的种类等。
  • 学习/训练:通常指从数据中学到模型的过程。
  • 任务的分类
    • 分类任务:输出空间为离散值。比如,好坏瓜用0,1表示。
    • 回归任务:输出空间为连续值。比如,好瓜用概率表示。
  • 学习任务
    • 监督学习:训练数据拥有标记信息,比如训练任务有标记好瓜和坏瓜。
    • 无监督学习:训练数据没有标记信息。
  • 泛化能力:模型能够正确处理没有在训练样本中样本的能力。

假设空间#

  • 归纳:从特殊到一般的“泛化”过程,从具体的事实归结出一般性规律。
  • 从一般到特殊的“特化”过程,既从基础原理推演出具体情况。
  • 归纳学习:
    • 广义归纳学习:从样本中学习
    • 狭义归纳学习:从训练集中学习。

学习过程看做一个所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集”匹配“的假设。如果假设的表示一旦确定了,则假设空间的大小和规模就确定了。
比如判断一个瓜是否是好瓜的假设,其中瓜的属性为(色泽, 根蒂,敲声)如果,色泽,根蒂,敲声分别有3,2,2种取值的可能。则假设空间的规模大小为(3+1)(2+1)(2+1)+1=37。下面可以直观的表示假设空间:

可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果.

  • 版本空间:有很多个假设与训练集一致,既存在着一个与训练集一致的”假设集合“。则称之为“版本空间”。

归纳偏好#

机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称“偏好”。
注意:任何一个有效的机器学习算法读必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。如果没有偏好,本质上在进行预测试时随机抽选训练集上的等效假设。这样的话,如果是预测数据,那么学到的模型的几次调用会出现不同的结果。
奥卡剃刀:如果有多个假设与观察一致,则选择最简单那个。
结论:样本空间X和假设空间H都是离散的。令P(h|X,Ma)代表算法Ma基于训练数据产生假设h的概率,令f代表希望学习的真实目标函数。则算法Ma算法的误差为:

Eote(Ma|X,f)=hxP(x)I((h(x)!=f(x))P(h|X,Ma)

作者:ALINGMAOMAO

出处:https://www.cnblogs.com/ALINGMAOMAO/p/15022453.html

版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @   青山新雨  阅读(128)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
阅读排行:
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探
more_horiz
keyboard_arrow_up light_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示