最优检测器,ROC,AUC
一.背景
一般机器学习完成后会生成正确率等指标,ROC也是常用的指标
\(假设有一随机变量X,离散值,有n中取值,同时有两类分布对应X\)
\(1.真实分布-从样本中,概率为p=(p_1,p_2,....,p_n)\)
\(2.假设分布-学习得到,概率为q=(q_1,q_2,....,q_n)\)
\(问题,若现在已知X=某个值,那么请问这个X来源于哪个分布?\)
二.\(概率矩阵P\)
\(P=\begin{pmatrix}
p_1 & q_1 \\
p_2 & q_2 \\
. & . \\
p_n & q_n \\
\end{pmatrix},每列代表一种分布,每行代表X可能的离散值\)
\(P_{kj}=Prob(X=k|\theta =j)代表某个分布j下产生样本k的概率,这是条件分布,\color{red}{给定了分布}\)
三.检测器/检测矩阵 dector T
\(T=\begin{pmatrix}
1 & 1 & 0.5 & 0.3 & 0 & ... \\
0 & 0 & 0.5 & 0.7& 1 & ... \\
\end{pmatrix}\)
\(每一行对应一种分布,每一列X=k代表这个值在1分布的概率或者2分布的概率,显然要么在1分布,要么在2分布,每一列求和=1\)
\(上面是Random\ dector\)
\(如果T对应如下情况\)
\(T=\begin{pmatrix}
1 & 1 & 0 & 0 & ... \\
0 & 0 & 1 & 1 & ... \\
\end{pmatrix}\)
\(这种叫确定性的矩阵 deterministic\ dector,也就是这两类分布是完全独立,互不影响的\)
\(t_{ik}=Prob(\hat \theta=i|X =k),\color{red}{给定了样本值}情况下,样本属于哪个分布的概率\)
四.检测概率矩阵 Detection Prob Matrix-D
\(D_{ij}=Prob(\hat \theta =i | \theta =j),真实分类/分布是j,但识别称了i\)
\(根据全概率公式\)
\(P(A|C)=\sum P(A|BC)P(B|C)\)
\(=\sum_B \frac{P(ABC)}{BC} \frac{P(BC)}{C}\)
\(=\frac{P(AC)}{C}=P(A|C)\)
\(故有\)
\(D_{ij}=Prob(\hat \theta =i | \theta =j)\)
\(=\sum_{k=1}^{n}P(\hat \theta =i| x=k,\theta =j) P(x=k|\theta =j)\)
\(=\sum_{k} t_ik p_{kj}\)
\(=TP_{ij},是矩阵相乘\)
Detection Prob-判断正确的概率
\(P_i^{d}=D_{ii}=Prob(\hat \theta =i|\theta =i)\)
Error Prob-判断错误的概率
\(P_i^{e}=\sum_{j+i}D_{ji}=Prob(\hat \theta =i|\theta =i)\)
\(矩阵D有如下性质\)
\(\sum_{i=1}^{n}D_{ij}=1-D_{ii}=Prob(\hat \theta =j|\theta =i),i\ne j\)
五.最优检测器设计
1.limit on error and detection
限制正确率,错误率
\(P_i^{d}=D_{ii} \ge L_j\)
\(D_{ij}\le u_{ij}(i\ne j)\)
\(这是一个解可行域的问题,feasibility\ Problem\)
\(这里变量是T矩阵,T=(t_1,...,t_k,...,t_K),t_k是列向量\)
2. Minimum detection design-极小化错误率
\(min\ max_j P_i^{e}\)
\(s.t. \ t_k\ge 0,1^Tt_k =1\)
六.真假阴阳性,Binary case
\(D = TP = [Tp_1,Tp_2] = \begin{bmatrix}真实分布 & - & + &推测 \\
&P_{TN} & P_{FN} & -\\
&P_{FP} & P_{TP} & +
\end{bmatrix}\)
\(列代表样本实际是+还是-,行代表样本被分为+样本还是-样本\)
真实/假 True/False
阴性/阳性 Positive/Negative
\(P_{TP}+ P_{FP} =1\)
\(P_{FN} + P_{TN} =1\)
举些例子
一些疾病,不能错放一个,没病的检测出有空可以容忍,要控制假阴性
False Positive :假阳
False Negative:假阴
True Positive :真阳
True Negative:真阳
这是一个多目标检测问题
\(\begin{cases}
& min(w.r.t\ R_{+}^2)(P_{fp},P_{fn}) = ((Tp)_2,(Tq)_1)\\
s.t. & t_1k+t_2k =1 \\
& t_ik \ge 0 & i=1,2,..., k =1,2,...,n
\end{cases}\)
\(变量为T\)
七.求解
\(min(Tp)_2+\lambda(Tq)_1\)
\(s.t.\ t_1k + t_2k =1\)
\(t_ik \ge 0\)
\(KKT条件解最优化问题\)
\([T][p,q]\)
\(Q=\sum_{k=1}^{n}t_{2k}p_k+\lambda(\sum_{k=1}^{n}t_{1k}q_k)\)
\(L=Q-\sum_{i=1}^{l}\sum_{k=1}^{n}\mu_{ik}t_{ik} + \sum_{k=1}^{n}v_1(t_{1k}+t_{2k}-1),\mu_{ik}\ge 0\)
\(t_{1k}+t_{2k}=1\)
\(t_{ik} \ge 0\)
\(\mu_{ik} t_{ik} =0, 互补松弛条件\)
\(\frac{\partial L}{\partial t_{1k}}\)
\(\lambda q_k -\mu_{1k} + v_k =0\)
\(\frac{\partial L}{\partial t_{2k}}\)
\(p_k -\mu_{2k} + v_k =0\)
\(\lambda q_k -\mu_{1k} = p_k-\mu_{2k}\)
\(-\mu_{1k}+\mu_{2k}=p_k -\lambda q_k\)
if \(p_k>\lambda q_k,则 \mu_{2k}>0,t_{2k}=0,t_{1k}=1\)
if \(p_k<\lambda q_k,则 t_{2k}=1\)
结论
\((t_{1k},t_{2k})\begin{cases} (1,0) & p_k > \lambda q_k\\ (0,1) & p_k < \lambda q_k\\ \end{cases}\)
if \(p_k \ne \lambda q_k,就是一个确定性的检测问题\)
if \(p_k = \lambda q_k,就是random detection\)
八.ROC 接受者操作特征曲线,AUC Area under Curve 曲线下的面积
\(代入不同的\lambda 值可以得到下面的曲线P_{fp}-P_{fn}\)
\(更加常见的是P_{FP}-P_{TP}曲线\)
曲线的由来是下面这张图,左右两个分布函数是+(阳性)样本的分布,-(阴性)样本的分布,竖线代表取到某个值,从左到右移动就绘成了上面的曲线图
当两个分布可以完全分离,即没有任何错分的时候,ROC基本贴近于正方形的边上,AUC(即曲线下面的面积约等于1)
<img src=https://img2022.cnblogs.com/blog/2682749/202201/2682749-20220124221433553-1141248710.png" width="60%" height="60%" />
九.Two Alternative forced choice
\(x_1为+样本,概率分布函数f_0(T),x_2为-样本,概率分布函数f_1(T),分布如图\)
\(回到最初的问题,有两个采样值,在两个分布中的值为x_1,x_2,则采样值来自于x_1分布的概率有多大\)
\(直观的考虑问题,随大流方法,哪个值大属于哪个分布\)
\(P(x_1 > x_2) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}I(T' > T)f_1(T')f_0(T)dTdT'\)
放一放
换个角度,算一下AUC
AUC
\(g_1(T)=TPR(T)\)
\(g_2(T)=FPR(T)=\int_{T}^{+\infty}f_0(x)dx\)
\(A=\int_{0}^{1}g_1(g_2)dg_2\)
\(有dg_2 =g_2' dT\)
\(则有A=\int_{+\infty}^{-\infty}g_1(T)g_2'dT\)
\(有g_2'(T)=-f_0(T)\)
\(继续有=\int_{-\infty}^{+\infty}\int_{T}^{+\infty}f_1(x)dx f_0(T)dT\)
\(=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}I(T' > T)f_1(T')dT'f_0(T)dT\)
\(=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}I(T' > T)f_1(T')f_0(T)dTdT'\)
\(就是上面的P(x_1 > x_2)\)