西瓜书课后习题——第二章

2.1

数据集包含500正例和500反例,按照70%的比例划分训练集和验证集,则验证集需要有150个正例、150个反例,

则共有$  \left ( C_{500}^{150} \right )^{2}$ 种划分方式。

2.2

数据集包含100个样本,10折交叉验证时,每个训练集应该有45正例、45反例,验证集应该有5正例、5反例,由于训练集中正例、反例比例为1:1,则按照题目的预测算法,预测时会进行随机预测(因为训练样本数比例相同),所以错误率的期望为50%

留一法时,留下来做验证集的样本有两种情况:正例、反例。当留下来的是正例时,训练集中反例比正例多一个,按照题目的算法会将验证集预测为反例,预测错误;留下来的是反例时同理,会将验证集预测为正例。所以错误率的期望为100%

2.3

F1的大小与BEP的大小没有明确的关系。

根据公式 $F1=\frac{2*P*R}{P+R}$ ,而BEP是查准率和查全率相等的点,即BEP=P=R,带入前式有$F1=\frac{2*P*R}{P+R}=\frac{2*P*P}{P+P}=P=BEP$,可以认为F1=BEP吗?显然不可以。可以构造反例进行验证,容易构造BEP相同的两个分类器的F1值并不相同,分类器将所有训练样本按自己认为是正例的概率排序,排在越前面分类器更可能将它判断为正例。按顺序逐个把样本标记为正,当查准率与查全率相等时,BEP=P=R。当然分类器的真实输出是在这个序列中的选择一个位置,前面的标记为正,后面的标记为负,这时的查准率与查全率用来计算F1值。可以看出有同样的BEP值的两个分类器在不同位置截断可能有不同的F1值,F1的大小与BEP的大小没有明确的关系。

2.4

查全率:    真正的正例被预测为正例的比率

真正例率:真正的正例被预测为正例的比率

显然查全率=真正例率

查准率:    预测的正例中真正的正例所占的比率

假正例率:真正的反例被预测为正例的比率

查准率与假正例率没有数值上的关系

2.5

 

2.6

ROC曲线的每个点对应了一个真正例率TPR与假正例率FPR,此时对应了一个错误率。

ROC曲线的每个点对应一个TPR和FPR,此时对应一个错误率:$E_{cost}=\frac{(m^{+}*(1-TPR)*cost_{01}+m^{-}*(1-FPR)*cost_{10})}{(m^{+}+m^{-})}$

而学习器会选择错误率最小的点作为截断点。

2.7

参考图2.5

由定义可以知道TPR与FPR都是由0上升到1,那么FNR则是由1下降到0。
每条ROC曲线都会对应一条代价曲线,由于第一条代价线段的是(0,0)到(1,1),最后是(0,1)到(1,0), 
所有代价线段总会有一块公共区域,这个区域就是期望总体代价,而这块区域的边界就是代价曲线,且肯定从(0,0)到(1,0)
在有限个样本情况下,ROC是一条折线,此时根据代价曲线无法还原ROC曲线。但若是理论上有无限个样本,ROC是一条连续的折线,代价曲线也是连续的折线,每个点的切线可以求出TPR与FNR,从而得到唯一的ROC曲线

2.8

Min−max规范化方法简单,而且保证规范化后所有元素都是正的,每当有新的元素进来,只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素,会导致其他元素变的非常小(大)。
z−score标准化对个别极端元素不敏感,且把所有元素分布在0的周围,一般情况下元素越多,0周围区间会分布大部分的元素,每当有新的元素进来,都要重新计算方差与均值。

2.9

 

2.10

 

posted @ 2019-04-13 16:34  zwtzz  阅读(2291)  评论(2编辑  收藏  举报