作业2

评估方法

留出法

数据集分成两部分，一部分训练，一部分拿来测试。

K 折交叉验证

数据集分成 K 部分，K-1 部分训练，一部分拿来测试。轮流进行 K 次。

留一验证

每次只取数据集中的一个样本做测试集，剩余的做训练集。
K 等于数据集数量的 K 折交叉验证

评价指标

基本概念

真阳性（TP），假阳性（FP），真阴性（TN），假阴性（FN）

准确度

\(Accuracy = \frac{TP+TN}{TN+FN+FP+TP}\)

精度

\(precision = \frac{TP}{FP+TP}\)

召回率

\(recall = \frac{TP}{FN+TP}\)

F-Score

\(F = \frac{(a^2+1)*precision*recall}{a^2*precision+recall}\)

分类器

MED 分类器

欧式距离，计算平均欧式距离，平均距离离得近的就是那一类。
缺点：没有考虑特征变化的不同及特征之间的相关性。

MICD 分类器

马式距离，计算平均马式距离，平均距离离得近的就是那一类。
缺点：会选择方差较大的类。

特征白化

特征转换分为两步：先去除特征之间的相关性（解耦），然后再对特征进行尺度变换（白化），使每维特征的方差相等。
解耦：去除相关性。
白化：方差一致。

贝叶斯规则

\(p(C_i|x)=\frac{p(x|C_i)p(C_i)}{p(x)}\)
\(p(Ci)\) 先验概率
\(p(x|Ci)\) 观测似然概率
\(p(x)=∑jp(x|cj)p(cj)\)，所有类别样本x的边缘概率

MAP 分类器

利用后验概率作为度量标准，最大后验概率分类器

最大似然估计

给定的N个训练样本都是符合iid条件的，从 \(p(x|θ)\) 采样

线性判据

若判别模型 \(f(x)\) 是线性函数，则 \(f(x)\) 为线性判据，适合于二分类问题，决策边界为线性的，多分类问题下任意两类的决策边界也是线性。
优势是计算量少，适用于训练样本少的情况。

Fisher 判据

利用一些方法进行降维，然后尽量增大类间距离（类间散度），减小类内距离（类内散度）

支持向量机

选两类中距离决策边界最大的训练样本，使这两个向量距离尽可能大，来达到增大类间散度的目的。这两个向量被称作支持向量。

拉格朗日乘数法

求解条件下的最优解

posted @ 2020-05-05 23:54 纪华裕阅读(245) 评论(0) 编辑收藏举报

刷新页面返回顶部

纪华裕

语言所述不及编程万分之一

作业2