机器学习学习笔记——基本知识

　　被我们老师说一定要学AI相关的，所以开始认真学了。（但是仍然不知道学了有什么用，吐槽）

　　参考：

　　　　　　　　　　有参考链接的，网站是这个https://www.showmeai.tech/article-detail/185。很推荐这个网站，看了第一篇就决定继续看下去了。

　　本篇只是一些知识概论，从这一篇开始设置重点不会从索引入手了，直接使用鲜明颜色标注，为了减少大脑负担尽可能地抽象可以抽象的知识，颜色不会有很多，最多三种。还是建议去showmeAI网站看，更加详细，还有图片。

　　关于字体颜色：

　　　　　　　　　　蓝色表示实践体悟意思更好，红色表示一定要记住，黑色表示看一遍就可以了（如果做题的时候遇到了再在自己的笔记改一下颜色就行，现阶段不要让脑子充斥那么多信息）

　　1. 机器学习概述

　　　　1）什么是机器学习

　　　　　　　　人工智能（Artificial intelligence）是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。有很长一段发展史。

　　　　　　　　机器学习（Machine learning）是人工智能的子集，是实现人工智能的一种途径，但并不是唯一的途径。

　　　　　　　　深度学习（Deep learning）是机器学习的子集，灵感来自人脑，由人工神经网络（ANN）组成，它模仿人脑中存在的相似结构。

　　　　　　　　区别：机器学习是区别于显式编程的，我们不需要编写无数的规则，而是由人提供特征，机器学会规则。

　　　　　　　　　　　深度学习是人类并不会给予特征（比如说一个Dataframe），而是提供影像等让机器自己寻找特征，像人的眼睛一样，自己得出特征的定义。

　　　　　　　　机器学习研究的是计算机怎样模拟人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构，使之不断改善自身。

　　　　2）机器学习三要素

　　　　　　　　机器学习三要素包括数据、模型、算法。

　　　　　　　　可以抽象理解成数据，函数，函数实现具体方法。

　　　　3）机器学习核心技术

　　　　　　　　分类：应用以分类数据进行模型训练，根据模型对新样本进行精准分类与预测。
　　　　　　　　聚类：从海量数据中识别数据的相似性与差异性，并按照最大共同点聚合为多个类别。
　　　　　　　　异常检测：对数据点的分布规律进行分析，识别与正常数据及差异较大的离群点。
　　　　　　　　回归：根据对已知属性值数据的训练，为模型寻找最佳拟合参数，基于模型预测新样本的输出值。

　　　　4）机器学习基本流程

　　　　　　　　机器学习工作流（WorkFlow）包含数据预处理（Processing）、模型学习（Learning）、模型评估（Evaluation）、新样本预测（Prediction）几个步骤。

　　　　　　　　（在学习相关的算法的时候会有更多的感悟，所以给个蓝色）
　　　　　　　　数据预处理：输入（未处理的数据 + 标签）→处理过程（特征处理+幅度缩放、特征选择、维度约减、采样）→输出（测试集 + 训练集）。
　　　　　　　　模型学习：模型选择、交叉验证、结果评估、超参选择。
　　　　　　　　模型评估：了解模型对于数据集测试的得分。
　　　　　　　　新样本预测：预测测试集。

　　2.机器学习基本名词

　　　　　　监督学习（Supervised Learning）：训练集有标记信息，学习方式有分类和回归。
　　　　　　无监督学习（Unsupervised Learning）：训练集没有标记信息，学习方式有聚类和降维。
　　　　　　强化学习（Reinforcement Learning）：有延迟和稀疏的反馈标签的学习方式。

　　　　　　示例/样本：上面一条数据集中的一条数据。
　　　　　　属性/特征：「色泽」「根蒂」等。
　　　　　　属性空间/样本空间/输入空间X：由全部属性张成的空间。
　　　　　　特征向量：空间中每个点对应的一个坐标向量。
　　　　　　标记：关于示例结果的信息，如（（色泽=青绿，根蒂=蜷缩，敲声=浊响），好瓜），其中「好瓜」称为标记。
　　　　　　分类：若要预测的是离散值，如「好瓜」，「坏瓜」，此类学习任务称为分类。
　　　　　　假设：学得模型对应了关于数据的某种潜在规律。
　　　　　　真相：潜在规律自身。
　　　　　　学习过程：是为了找出或逼近真相。
　　　　　　泛化能力：学得模型适用于新样本的能力。一般来说，训练样本越大，越有可能通过学习来获得具有强泛化能力的模型。

　　3.机器学习算法分类

　　　　2）分类问题

　　　　　　二分类问题：表示分类任务中有两个类别新的样本属于哪种已知的样本类。
　　　　　　多类分类（Multiclass classification）问题：表示分类任务中有多类别。
　　　　　　多标签分类（Multilabel classification）问题：给每个样本一系列的目标标签。

　　　　　　其他算法……

　　4.机器学习模型评估与选择

　　　　1）机器学习与数据拟合

　　　　　　　　机器学习最典型的监督学习为分类与回归问题。分类问题中，我们学习出来一条「决策边界」完成数据区分；在回归问题中，我们学习出拟合样本分布的曲线。

　　　　2）训练集与数据集

　　　　　　　　我们以房价预估为例，讲述一下涉及的概念。

　　　　　　　　训练集（Training Set）：帮助训练模型，简单的说就是通过训练集的数据让确定拟合曲线的参数。
　　　　　　　　测试集（Test Set）：为了测试已经训练好的模型的精确度。

　　　　3）经验误差

　　　　　　　　在训练集的数据上进行学习。模型在训练集上的误差称为「经验误差」（Empirical Error）。但是经验误差并不是越小越好，因为我们希望在新的没有见过的数据上，也能有好的预估结果。

　　　　4）过拟合

　　　　　　　　过拟合，指的是模型在训练集上表现的很好，但是在交叉验证集合测试集上表现一般，也就是说模型对未知样本的预测表现一般，泛化（Generalization）能力较差。

　　　　　　　　如何防止过拟合呢？一般的方法有Early Stopping、数据集扩增（Data Augmentation）、正则化、Dropout等。

　　　　　　　　正则化：指的是在目标函数后面添加一个正则化项，一般有L1正则化与L2正则化。L1正则是基于L1范数，即在目标函数后面加上参数的L1范数和项，即参数绝对值和与参数的积项。

　　　　　　　　数据集扩增：即需要得到更多的符合要求的数据，即和已有的数据是独立同分布的，或者近似独立同分布的。一般方法有：从数据源头采集更多数据、复制原有数据并加上随机噪声、重采样、根据当前数据集估计数据分布参数，使用该分布产生更多数据等。

　　　　　　　　DropOut：通过修改神经网络本身结构来实现的。

　　　　　　　（未标蓝是因为在学算法的时候我还没有遇到过拟合）

　　　　5）偏差

　　　　　　　　偏差（Bias），它通常指的是模型拟合的偏差程度。给定无数套训练集而期望拟合出来的模型就是平均模型。偏差就是真实模型和平均模型的差异。

　　　　　　　　简单模型是一组直线，平均之后得到的平均模型是一条直的虚线，与真实模型曲线的差别较大（灰色阴影部分较大）。因此，简单模型通常高偏差。

　　　　　　　　复杂模型是一组起伏很大波浪线，平均之后最大值和最小组都会相互抵消，和真实模型的曲线差别较小，因此复杂模型通常低偏差（见黄色曲线和绿色虚线几乎重合）。

　　　　6）方差

　　　　　　　　方差（Variance），它通常指的是模型的平稳程度（简单程度）。简单模型的对应的函数如出一辙，都是水平直线，而且平均模型的函数也是一条水平直线，因此简单模型的方差很小，并且对数据的变动不敏感。

　　　　　　　　复杂模型的对应的函数千奇百怪，毫无任何规则，但平均模型的函数也是一条平滑的曲线，因此复杂模型的方差很大，并且对数据的变动很敏感。

　　　　7）偏差与方差的平衡

　　　　8）性能度量指标

　　　　　　　　　　性能度量是衡量模型泛化能力的数值评价标准，反映了当前问题（任务需求）。使用不同的性能度量可能会导致不同的评判结果。更详细的内容可见模型评估方法与准则（也就是原网站的下一篇，这里应该会学习几个算法后再去看）

　　　　　　　　（1）回归问题

　　　　　　　　　　　　关于模型「好坏」的判断，不仅取决于算法和数据，还取决于当前任务需求。回归问题常用的性能度量指标有：平均绝对误差、均方误差、均方根误差、R平方等。

机器学习基础知识; 模型评估与选择; 性能度量指标-回归问题 ;

平均绝对误差（Mean Absolute Error，MAE），又叫平均绝对离差，是所有标签值与回归模型预测值的偏差的绝对值的平均。
平均绝对百分误差（Mean Absolute Percentage Error，MAPE）是对MAE的一种改进，考虑了绝对误差相对真实值的比例。
均方误差（Mean Square Error，MSE）相对于平均绝对误差而言，均方误差求的是所有标签值与回归模型预测值的偏差的平方的平均。
均方根误差（Root-Mean-Square Error，RMSE），也称标准误差，是在均方误差的基础上进行开方运算。RMSE会被用来衡量观测值同真值之间的偏差。（KNN算法使用）
R平方，决定系数，反映因变量的全部变异能通过目前的回归模型被模型中的自变量解释的比例。比例越接近于1，表示当前的回归模型对数据的解释越好，越能精确描述数据的真实分布。

　　　　　　　　（2）分类问题

　　　　　　　　　　　　分类问题常用的性能度量指标包括错误率（Error Rate）、精确率（Accuracy）、查准率（Precision）、查全率（Recall）、F1、ROC曲线、AUC曲线和R平方等。

错误率：分类错误的样本数占样本总数的比例。
精确率：分类正确的样本数占样本总数的比例。
查准率（也称准确率），即在检索后返回的结果中，真正正确的个数占你认为是正确的结果的比例。
查全率（也称召回率），即在检索结果中真正正确的个数，占整个数据集（检索到的和未检索到的）中真正正确个数的比例。
F1是一个综合考虑查准率与查全率的度量，其基于查准率与查全率的调和平均定义：即：F1度量的一般形式-Fβ，能让我们表达出对查准率、查全率的不同偏好。

ROC曲线（Receiver Operating Characteristic Curve）全称是「受试者工作特性曲线」。综合考虑了概率预测排序的质量，体现了学习器在不同任务下的「期望泛化性能」的好坏。ROC曲线的纵轴是「真正例率」（TPR），横轴是「假正例率」（FPR）。

　　　　9）评估方法

　　　　　　　　　　……

　　　　10）模型调优与选择准则

　　　　　　　　　　我们希望找到对当前问题表达能力好，且模型复杂度较低的模型：

　　　　11）如何选择最优的模型

　　　　　　（1）验证集评估选择

　　　　　　　　　　切分数据为训练集和验证集。
　　　　　　　　　　对于准备好的候选超参数，在训练集上进行模型，在验证集上评估。

　　　　　　（2）网格搜索/随机搜索交叉验证

　　　　　　　　　　通过网格搜索/随机搜索产出候选的超参数组。
　　　　　　　　　　对参数组的每一组超参数，使用交叉验证评估效果。
　　　　　　　　　　选出效果最好的超参数。

　　　　　　　　　　（想了想还是标蓝了）

　　　　　　（3）贝叶斯优化

　　　　　　　　　　基于贝叶斯优化的超参数调优。

转载自：https://www.showmeai.tech/article-detail/185

posted @ 2024-04-15 23:57 程序计算机人阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

clina