机器学习笔记

机器学习笔记

Categories: MachineLearning

Datetime: 2022-12-29T09:50+08:00

Update: 2023-03-12T09:50+08:00

AI、ML、DL 的联系与区别

Artificial Intelligence(AI)、Machine Learning(ML)、Deep Learning(DL)有什么关系?

人工智能是希望机器具有人一样的智能,是目的

机器学习是达到人工智能的途径,包括深度学习、聚类分析和贝叶斯等,是多种方法的集合

深度学习是模仿人脑设计神经网络,是一种方法

至于 Computer Vision、Natural Language Processing 和 Data Mining,只是领域,当前,也就是 201x 到 202x 年,使用了机器学习,尤其是深度学习的方法,获得了很大的进步,比较火热。

下面这张图来自 Looking backwards, looking forwards: SAS, data mining, and machine learning,说明了各个领域的关系:

img

数据集的划分

两种划分方法:\(\{训练集,测试集\}\)\(\{训练集,验证集,测试集\}\)

测试集只是用来挑选算法的,比如 XGBoost 和 Neural Network,测试集不参加训练,验证集是用来挑选超参数的,参考 训练集、验证集和测试集 - 触摸壹缕阳光的文章 - 知乎

交叉验证是在训练集比较小的时候,挑选超参数的一种方法。

评价指标

需要从 TP,TN,FP,FN 讲起,别人的文章珠玉在前,我只记录自己的理解

Recall 是一个让人摸不着头脑的名字,理解为 Sensitivity 好,表示对一类样本的分辨能力。比如给一堆类别为 1 的样本,如果模型能把大多数样本的类别正确判断为 1,就说明对 1 类样本敏感。

Precision 表示,给了一堆样本,模型认为都是 1 类,那么模型猜对了多少呢?这就是模型对 1 类样本的 Precision。

F1 是调和平均

我认为值得注意的是 ROC_AUC 的曲线可视化理解。

蓝色曲线下的面积是类别 0 的数量,绿色曲线下的面积是类别 1 的数量,横轴是它们的得分,好的模型能够在得分这个维度上把二者分得远。ROC-AUC 的意义就是挑一正样本和负样本,正样本得分高于负样本得分的概率。

如果运气好正样本挑到绿色单独的那部分,或者负样本挑到蓝色单独的那部分,皆大欢喜;如果两个样本挑到二者重合的部分,那负样本得分可能就比正样本高了。

ROC-AUC 在极端情况下也可能无法准确衡量一个模型是否在不平衡数据集下的性能,下面是我自己的思考:

在类别 1 样本极少、但是偏偏模型差一点就能区别二者的情况下,正样本得分的概率还是高于负样本的,就算调节阈值,让类别 1 的 Recall 达到 100%,Precision 也会跌到 50% 以下。

---- 大概率弃坑 ----

posted @ 2023-03-12 11:40  ticlab  阅读(32)  评论(0编辑  收藏  举报