2.4 statistical decision theory
在讲完最小二乘(linear regression)和K近邻后,进入本节。
引入符号:
X∈Rp X为维度为p的输入向量
Y∈R Y为输出,实数
P(X,Y) 为两者的联合概率分布
f(X) 为预测函数,给定X,输出Y
a.使用squared error loss(L2)作为损失函数
L(Y,f(X))=(Y−f(X))2
EPE(excepted prediction error)为
EPE(f)=E((Y−f(X))2) =∫∫[y−f(x)]2P(x,y)dxdy=∫[∫[y−f(x)]2P(y|x)dy]p(x)dx =EXEY|X([Y−f(X)]2|X)
最小化EPE,在每个点上f(x)需要满足:
f(x)=argmincEY|X([Y−c]2|X=x) =argminc∫[y2−2yc+c2]P(y|X=x)dy=argmincEY|X(Y2)−2cEY|X(Y)+c2
对上式的c求导,置为0:
c=E(Y|X=x)
所以,当squared error loss时,给定X,最好的预测为条件均值
K近邻实际给出的是(1)对条件均值的点估计(2)X=x被模拟为在某近似区域
linear regression则假设这些条件均值能用线性函数近似
b.使用L1作为损失函数
L(Y,f(X))=|Y−f(X)|
f(x)=argmincEY|X(|Y−c||X=x) =argminc∫c−∞(y−c)P(y|X=x)dy+∫∞c(c−y)P(y|X=x)dy =argminc∫c−∞yP(y|X=x)dy−c∫c−∞P(y|X=x)dy+c∫∞cP(y|X=x)dy−∫∞cyP(y|X=x)dy
对c求导,置为0:
第一部分:cP(y=c|X=x)
第二部分:−∫c−∞P(y|X=x)dy−cP(y=c|X=x)
第三部分:∫∞cP(y|X=x)dy−cP(y=c|X=x)
第四部分:cP(y=c|X=x)
有∫∞cP(y|X=x)dy=∫c−∞P(y|X=x)dy
所以,当为L1作为损失函数时,给定X,最好的预测为条件中値
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· C# 深度学习:对抗生成网络(GAN)训练头像生成模型
· .NET 适配 HarmonyOS 进展
· .NET 进程 stackoverflow异常后,还可以接收 TCP 连接请求吗?
· SQL Server统计信息更新会被阻塞或引起会话阻塞吗?
· 传国玉玺易主,ai.com竟然跳转到国产AI
· 本地部署 DeepSeek:小白也能轻松搞定!
· 自己如何在本地电脑从零搭建DeepSeek!手把手教学,快来看看! (建议收藏)
· 我们是如何解决abp身上的几个痛点
· 普通人也能轻松掌握的20个DeepSeek高频提示词(2025版)