第一次个人作业
学习笔记
第一章模式识别基本概念,评估指标
-
准确率(正确率)=所有预测正确的样本/总的样本 (TP+TN)/总
-
精确率= 将正类预测为正类 / 所有预测为正类 TP/(TP+FP)
-
召回率 = 将正类预测为正类 / 所有正真的正类 TP/(TP+FN
-
ROC曲线:接收者操作特征(receiver operating characteristic)
roc曲线上每个点反映着对同一信号刺激的感受性。
纵轴:真正类率(true postive rate TPR),也叫真阳性率
横轴:假正类率(false postive rate FPR),也叫伪阳性率
理想目标:TPR=1,FPR=0,即图中(0,1)点,此时ROC曲线越靠拢(0,1)点,越偏离45度对角线越好。 -
AUG曲线:Area Under Curve被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。
第二章 基于距离的分类器 MED分类器、MICD分类器
-
MED分类器 最小欧式距离分类器Minimum Euclidean Distance Classifier
距离:欧式距离
比较方法,那个点到两个类的欧式距离更小就属于哪个类
最小距离分类法原理简单,容易理解,计算速度快,但是因为其只考虑每一类样本的均值,而不用管类别内部的方差(每一类样本的分布),也不用考虑类别之间的协方差(类别和类别之间的相关关系),所以分类精度不高,因此,一般不用它作为我们分类对精度有高要求的分类。
-
MICD分类器 最小类内距离分类器Minimum Intra-class Distance Classifier
距离:马氏距离
比较方法,那个点到两个类的马式距离更小就属于哪个类
缺点,马氏距离会选择方差较大的那一个类
第三章贝叶斯决策与学习
-
MAP分类器 最大后验概率分类器Maximum posterior probability Classifier
后验概率 :
比较方法,属于哪个类的后验概率比较大就属于哪个类
几种分类器的决策边界比较
-
贝叶斯分类器
贝叶斯分类器在MAP分类器基础上,加入决策风险因素
给定一个测试样本,贝叶斯分类器选择决策风险最小的类
R(αi|x)<R(αj|x)?Ci类:Cj类
检索一些文献或者网页资讯,记录机器学习等人工智能领域的前沿技术介绍、展望、应用,了解我们国家的先进或不足,存在的卡脖子技术等
-
介绍
-
AutoML出现原因
机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等机器学习的各个方面。AutoML 试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。
-
AutoML问题定义
-
从机器学习角度讲,AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用;
-
从自动化角度讲,AutoML 则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。
-
-
一个通用的 AutoML 定义如下:
-
AutoML核心任务
- Better performance
- No human assistance
- Lower computation budgets
-
-
展望,未来可能的研究方向
- 提高AutoML的效率
- 更明确的问题定义
- 发展基本和高级的搜索策略
- 找到更适合的应用。
-
应用
- 使用 Auto-sklearn 进行模型选择
- 使用强化学习进行 Neural Architecture Search
- 使用 ExploreKit 进行自动特征构建