机器学习(1)--基础知识

基础知识

基本术语

有所了解:

  • 数据集 : 100个西瓜
  • 样本 : 一个西瓜
  • 特征向量(我们把一个示例(样本)称为一个特征向量)
    • 样本空间
    • 颜色、大小、敲起来的振幅......
    • 维度
  • 属性(反映事件或对象在某方面的表现或性质的事项如:色泽、根蒂、敲声,称为属性或特征;)
    • 颜色
  • 属性值(属性上的取值如青绿、乌黑......)

通过某种学习算法

  • 学习
  • 训练

得到模型

  • 有监督学习

    • 分类 (分类是机器学习的一项主要任务,主要是将实例数据划分到合适的分类中。)
      • 二分类(西瓜的例子【西瓜的好坏】是一个二分类问题)
      • 多分类(多分类指的是数据不止两个类别,它有多个类别。)
    • 回归(机器学习的另外一项任务是回归,主要是预测数值型的数据,比如通过数据值拟合曲线等。)
      • (回归任务的目标是预测一个连续值,编程术语叫作浮点数。)如果在可能的结果之间具有连续性,那么它就是一个回归问题,比如说价格。
  • 无监督学习

    • 聚类(聚类属于无监督学习,它是指我们的数据只有输入,没有输出,并需要从这些数据中提取知识。)

    我们现在手里的数据只有色泽、根蒂、敲声这几个特征,我们通过这三个特征,把性状相似的西瓜分到一个组,这就是一个聚类问题。聚类问题与分类问题的本质区别就是有没有标签。

假设空间

科学推理手段

归纳

从一般到特殊

演绎

从特殊到一般

归纳偏好

同一个数据训练出不同的数据模型

原则:奥卡姆剃刀-->选最简单的那个

模型评估与选择

一种训练集一种算法

经验误差与拟合

简述手写数字识别为例:

  • m为样本数量
  • Y为样本正确结果
  • Y'为预测样本结果数量
  • a个发生错误
  • error rateE=a/m
  • 精度:1E
  • 误差:|YY|
评估方法
  • 训练集,验证集与测试集
    • 训练集
    • 测试集
      • 留出法
      • k折交叉验证
      • 自助法
    • 验证集
性能度量

一种训练集多种算法

多种训练集一种算法

posted @   ICE_棋  阅读(58)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
点击右上角即可分享
微信分享提示