Processing math: 100%

2.4 statistical decision theory

在讲完最小二乘(linear regression)和K近邻后,进入本节。

引入符号:

XRp X为维度为p的输入向量

YR Y为输出,实数

P(X,Y) 为两者的联合概率分布

f(X) 为预测函数,给定X,输出Y

a.使用squared error loss(L2)作为损失函数

L(Y,f(X))=(Yf(X))2

EPE(excepted prediction error)为

EPE(f)=E((Yf(X))2)  =[yf(x)]2P(x,y)dxdy=[[yf(x)]2P(y|x)dy]p(x)dx  =EXEY|X([Yf(X)]2|X)

最小化EPE,在每个点上f(x)需要满足:

f(x)=argmincEY|X([Yc]2|X=x)  =argminc[y22yc+c2]P(y|X=x)dy=argmincEY|X(Y2)2cEY|X(Y)+c2

对上式的c求导,置为0:

c=E(Y|X=x)

所以,当squared error loss时,给定X,最好的预测为条件均值

K近邻实际给出的是(1)对条件均值的点估计(2)X=x被模拟为在某近似区域

linear regression则假设这些条件均值能用线性函数近似

b.使用L1作为损失函数

L(Y,f(X))=|Yf(X)|

f(x)=argmincEY|X(|Yc||X=x)  =argmincc(yc)P(y|X=x)dy+c(cy)P(y|X=x)dy  =argminccyP(y|X=x)dyccP(y|X=x)dy+ccP(y|X=x)dycyP(y|X=x)dy

对c求导,置为0:

第一部分:cP(y=c|X=x)

第二部分:cP(y|X=x)dycP(y=c|X=x)

第三部分:cP(y|X=x)dycP(y=c|X=x)

第四部分:cP(y=c|X=x)

cP(y|X=x)dy=cP(y|X=x)dy

所以,当为L1作为损失函数时,给定X,最好的预测为条件中値

posted @   porco  阅读(470)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· C# 深度学习:对抗生成网络(GAN)训练头像生成模型
· .NET 适配 HarmonyOS 进展
· .NET 进程 stackoverflow异常后,还可以接收 TCP 连接请求吗?
· SQL Server统计信息更新会被阻塞或引起会话阻塞吗?
阅读排行:
· 传国玉玺易主,ai.com竟然跳转到国产AI
· 本地部署 DeepSeek:小白也能轻松搞定!
· 自己如何在本地电脑从零搭建DeepSeek!手把手教学,快来看看! (建议收藏)
· 我们是如何解决abp身上的几个痛点
· 普通人也能轻松掌握的20个DeepSeek高频提示词(2025版)
点击右上角即可分享
微信分享提示