机器学习基本概念

机器学习基本概念

1.基本定义

  • 机器学习 : 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

2.机器学习的工作流程

  • 1.获取数据
  • 2.数据的基本处理
  • 3.特征工程
  • 4.机器学习(模型训练)
  • 5.模型评估
    • 结果达到要求,上线服务
    • 未达到要求,重复上述步骤

2.1获取数据

  • 数据简介
    • 在数据集中一般:
      • 一行数据称为一个样本
      • 一列数据称为一个特征
      • 有些数据有目标值(标签值),有些数据没有标签值
  • 数据类型的构成
    • 类型一:特征值+目标值(目标值是连续和离散的)
    • 类型二:只有特征值,没有目标值
  • 数据分割:
    • 机器学习一般的数据集会划分为2个部分:
      • 训练数据:用于训练,构建模型
      • 测试数据:在模型检验时使用,用于评估模型是否有效
    • 划分比例:
      • 训练集:70%,80%,75%
      • 测试集:30%,20%,25%

2.2数据基本处理

  • 即对数据进行缺失值、去除异常值等处理

2.3特征工程

2.3.1什么是特征工程

  • 特征工程是使用专业知识背景和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用
    • 意义:会直接影响机器学习的效果

2.3.2为什么需要特征工程

  • 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

2.3.3 特征工程包含的内容

  • 特征提取
  • 特征预处理
  • 特征降维

2.3.4 各概念的具体解释

  • 特征提取
    • 将任意数据(如文本或图像)转换为可用于机器学习的数字特征
  • 特征预处理
    • 通过一些转换函数将特征数据转换为更加适合算法模型的特征数据过程
  • 特征降维
    • 指在某些限定条件下,降低随机变量(特征)的个数,得到一组“不相关”主变量的过程

2.3机器学习

  • 选择合适的算法对模型进行训练

2.4 模型评估

  • 对训练好的模型进行评估

3.机器学习算法分类

  • 根据数据集组成不同,可以把机器学习算法分为:监督学习、无监督学习、半监督学习与强化学习

3.1. 监督学习

  • 定义:
    • 输入数据是由特征值和目标值所组成
      • 函数的输出可以是一个连续的值(称为回归)
      • 或输出有限个的离散值(称作分类)

3.2.无监督学习

  • 定义:
    • 输入数据是由输入的特征值组成,没有目标值
      • 输入数据没有被标记,也没有确定的结果,样本数据类别未知
      • 需要根据样本间的相似性对样本集进行类别划分
  • 有监督与无监督的对比

3.3 半监督学习

  • 定义:训练集中同时包含有标记的数据于未标记的数据

3.4 强化学习

  • 定义:实质是make decision问题,并且可以连续做决策

  • 主要包含五元素:agent,action,reward,environment,observation

  • 举例:小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保特平衡,接下来还要先迈出一条圆,是左
    圆还是右圆,迈出一步后还要迈出下一步,
    小孩就是agent,他试图通过采取行动(action)(即行走)来操纵环境(environment)(行走的表面),并且从一个状转变到另一
    个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(reward)(给巧克力吃),并
    且当他不能走路制,就不会给巧克力。

  • 强化学习的目标:获取最多的累计奖励

3.5.监督与强化学习的比较

监督学习 强化学习
反馈映射 输出的是之间的关系,可以告诉算法什么样的输入对应什么样的输出 输出的是给机器的反馈reward function,即用来判断这个行为的好坏
反馈时间 做了比较坏的选择会立刻反馈给算法 结果反馈有延时,有时间可能需要走很多步以后才知道以前某一步的选择好坏
输入特征 输入是独立同分布的 面对的输入总是在变化的,每当算法做出一个行为,它影响下一次的决策输入

3.6.小结

in out 目的 案例
监督学习 有标签 有反馈 预测结果 猫狗分类,房价预测
无监督学习 无标签 无反馈 发现潜在结构 “物以类聚,人以群分”
半监督学习 部分有标签,部分无标签 有反馈 降低数据标记的难度
强化学习 决策流程及奖励系统 一系列行动 长期利益最大化 学下棋

4.模型评估

  • 模型评估有助于发现表达数据的最佳模型和所选模型将来工作的性能

4.1模型评估的方法

  • 根据数据集的目标值不同,可以把模型评估分为分类模型评估与回归模型评估

  • 1.分类模型评估

    • 准确率:预测正确的数占样本总数的比例
    • 其他评价指标:精确率、召回率、F1—score、AUC指标等
  • 2.回归模型评估

    • 均方根误差(RMSE):是一个衡量回归模型误差率常用公式,但是它仅能比较误差相同单位的
    • 其他评价指标:相对平方误差、平均绝对误差、相对绝对误差

4.2拟合

  • 用于评价训练好的模型的表现效果,其表现大致分为2类:过拟合,欠拟合
  • 1.欠拟合:模型学习的太过粗糙,连训练集中的样本特征关系都没学出来
    • 例子:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别处天鹅的特征
    • 特点:学习到的东西太少,模型学习的太过粗糙
  • 2.过拟合:所建的机器学习模型或深度学习模型在训练样本中表现的过于优越,导致在测试数据集中表现不佳
    • 例子:机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅
    • 特点:学习到的东西太多,不好泛化
  • 训练数据训练的很好啊,误差也不大——过拟合
posted @ 2023-02-02 23:44  小杨的冥想课  阅读(185)  评论(0编辑  收藏  举报