机器学习基础

机器学习的数据

数据集(data set)https://en.wikipedia.org/wiki/Iris_flower_data_set

萼⽚长度 萼⽚宽度 花瓣长度 花瓣宽度 种类
5.1 3.5 1.4 0.2 se(0)
7.0 3.2 4.7 1.4 ve(1)
6.3 3.3 6 2.5 vi(2)
  • 样本(sample):每一行数据。

  • 特征(feature):除去最后一列。

  • 标记(label):最后一列。

    • \(X^{(i)}\):第 \(i\) 个样本(特征向量
    • \(X_j^{(i)}\):第 \(i\) 个样本第 \(j\) 个特征值
    • \(y^{(i)}\):第 \(i\) 个样本的标记

\[\left(\begin{array}{c} \left(X^{(1)}\right)^T \\ \left(X^{(2)}\right)^T \\ \left(X^{(3)}\right)^T \\ \cdots \end{array}\right) \]

特征空间(feature space)

机器学习的任务

  • 分类任务
    • 二分类
      • 判断邮件是垃圾邮件;不是垃圾邮件
      • 判断发放给客户信⽤用卡有风险;没有风险
      • 判断病患良性肿瘤;恶性肿瘤
      • 判断某⽀支股票涨;跌
      • ...
    • 多分类
      • 数字识别
      • 图像识别
      • 判断发放给客户信⽤用卡的风险评级
      • ...
    • 多标签分类
  • 回归任务

• 有⼀一些算法只能解决回归问题;
• 有⼀一些算法只能解决分类问题;
• 有⼀一些算法的思路路既能解决回归问题,⼜又能解决分类问题。

监督学习,非监督学习,半监督学习和增强学习

监督学习(supervised learning):给机器的训练数据拥有“标记”或者“答案”。

  • 举例:
    • K近邻
    • 线性回归
    • 多项式回归
    • 逻辑回归
    • SVM
    • 决策树
    • 随机森林

非监督学习(unsupervised learning):给机器的训练数据没有任何“标记”或者“答案”。

  • 意义:对数据进行降维处理。
    • 特征提取
    • 特征压缩
    • 方便可视化
    • 异常检测

半监督学习(semi-supervised learning):一部分数据有“标记”或者“答案”,另一部分数据没有。

  • 处理方式:
    1. 先使用无监督学习手段对数据做处理;
    2. 后使用监督学习手段对模型进行训练和预测。

强化学习(reinforcement Learning):根据周围环境的情况,采取⾏行行动,根据采取⾏行行动的结果,学习⾏行行动⽅方式。

批量学习,在线学习,参数学习和非参数学习

批量学习(Batch Learning)

在线学习(Online Learning)

参数学习(Parametric Learning)

非参数学习(Nonparametric Learning)

posted @ 2023-02-26 22:52  手持六脉神剑的外星人  阅读(11)  评论(0编辑  收藏  举报