神经网络数学原理(5)常见概率分布

在传统机器学习中,回归和分类任务通常被简化为输出一个单一的确定值(如预测房价为100万元)或硬分类结果(如图像分类为“猫”)。然而,现实世界的数据往往充满不确定性、噪声和复杂性,简单地输出一个固定值往往忽略了这些因素,也无法准确表达模型对结果的信心。

例如,在房价预测中,尽管模型给出了一个100万元的预测值,但实际房价可能会在95万到105万之间波动,这种不确定性往往被忽视。而在医疗诊断中,输出“可能患病”或“健康”的硬分类结果,无法揭示模型对诊断结果的置信度,这对医生决策至关重要。

为了解决这些问题,机器学习模型引入了概率视角。通过让模型输出概率分布而非单一值,我们可以更好地量化不确定性,显式建模数据中的噪声,进而提供更丰富的信息。例如,回归任务中,我们不仅输出房价的预测值,还能给出一个可信度范围;分类任务中,我们可以得到每个类别的概率,从而反映模型对每个分类的信心程度。这种方式不仅让模型的预测更具解释性,还能在决策中考虑到风险因素,提升应用场景中的可靠性。

1.回归任务中的概率视角

传统方法的局限性

  • 点估计(Point Estimation):直接输出一个数值(如线性回归输出y=w*x+b)。

  • 问题

    • 无法表达预测的不确定性(如房价可能在95-105万之间波动)。

    • 忽略数据中的噪声(如测量误差、缺失特征的影响)。

概率分布的优势

  1. 量化不确定性
    模型输出分布的参数(如高斯分布的均值μ和方差σ2):

    • 均值:预测的最佳估计值。

    • 方差:预测的可信度(方差越大,不确定性越高)。
      示例:自动驾驶中预测前方车辆位置时,提供位置均值和方差,帮助系统评估风险。在预测房价得例子中,假设噪声ϵ是服从均值为0,方差为σ2得正太分布,那么y=w*x+b+ϵ,可以推理为y是服从均值为 w*x+b ,方差σ2得正太分布

  2. 显式建模噪声
    假设目标值服从某个分布(如y∼N(μ,σ2)),将噪声纳入模型:

    • 高斯分布 → 假设噪声对称且温和。

    • 拉普拉斯分布 → 对异常值更鲁棒。

  3. 支持概率推断
    可回答概率问题:

    • “房价超过120万的概率是多少?”

    • “目标值落在[90, 110]区间内的置信度是多少?”

2.分类任务中的概率视角

传统方法的局限性

  • 硬分类(Hard Classification):直接输出类别标签(如“类别A”)。

  • 问题

    • 无法表达分类的置信度(如模型对“类别A”的把握是90%还是51%?)。

    • 难以处理类别模糊的情况(如图像介于“猫”和“狗”之间)。

概率分布的优势

  1. 输出类别概率
    通过Softmax函数得到概率分布(如P(猫)=0.8,P(狗)=0.2):

    • 决策支持:高置信度时可直接分类,低置信度时触发人工审核。

    • 风险评估:医疗诊断中,模型输出“恶性肿瘤概率为15%”比二元结果更实用。

  2. 损失函数的概率解释
    交叉熵损失(Cross-Entropy)本质是最大化对数似然

    • 直接优化预测分布与真实分布的相似性。

  3. 校准模型置信度
    概率输出可用于评估模型是否“过度自信”或“信心不足”,提升模型可靠性。

3.概率建模的核心价值

场景点估计/硬分类概率分布
输出形式 单一数值或标签 概率密度函数或类别概率
不确定性表达 无法量化 显式输出方差或置信度
噪声建模 忽略噪声影响 显式假设噪声分布
决策支持 仅提供结果 支持风险敏感决策(如医疗、金融)
模型解释性 难以解释预测逻辑 概率值提供直观解释

在机器学习和统计学中,概率分布是建模数据规律的核心工具。不同的分布假设会直接影响模型的性能和预测结果的可解释性。本文将详细介绍六种常见概率分布的特点、应用场景及选择方法

1.高斯分布(正态分布)

1.1 典型特征

  • 钟形曲线:单峰对称,中心最高,向两侧平滑下降。

  • 尾部行为:曲线逐渐逼近横轴,但永不接触(无限延伸)。

  • 参数影响

    • 均值 μ 决定中心位置(曲线沿x轴平移)。

    • 标准差 σ决定曲线宽度(σ越大,曲线越扁平)。

  • 几何特征

    • 曲线下面积为1。

    • 68-95-99.7规则:数据分布在μ±σ、μ±2σ、μ±3σ内的概率分别为68%、95%、99.7%。


1.2 数学公式

高斯分布的概率密度函数为:

均值(μ

  • 作用:确定分布的中心位置。

  • 直观解释:数据的平均趋势。
    示例:身高分布的均值 μ=170 cm,表示人群平均身高。

标准差(σ

    • 作用:衡量数据的离散程度。

68-95-99.7规则是基于高斯分布的一种经验法则,用来描述数据在不同标准差范围内的分布情况。这些数字表示的是数据集中大约百分之多少的观测值位于均值附近。

  • 68% 的数据点会落在 μ±σ  的区间内(即均值±1个标准差)。
  • 95% 的数据点会落在 μ±2σ  的区间内(即均值±2个标准差)。
  • 99.7% 的数据点会落在 μ±3σ  的区间内(即均值±3个标准差)。

这个规则的来源是因为高斯分布的形状是对称的,且分布的尾部是渐进的。当数据遵循正态分布时,大多数数据点会集中在均值附近,少数极端数据(离均值较远的值)会位于分布的尾部。通过这个规则,我们能够用标准差来快速理解数据的分布范围,以及判断数据的离散程度。

使用场景

  • 自然现象(身高、测量误差)

  • 回归任务(默认噪声假设)

  • 金融资产收益率(短期)

优缺点

优点缺点
数学性质优良,易于计算 对异常值敏感
中心极限定理支持 仅适合单峰对称数据
复制代码
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

x = np.linspace(-5, 5, 1000)
plt.plot(x, norm.pdf(x, 0, 1), label="N(0,1)")
plt.title("Gaussian Distribution")
plt.legend()
View Code 
复制代码

2. 拉普拉斯分布

2.1 典型特征

  • 尖峰厚尾:中心峰值比高斯分布更尖锐:表示数据在均值附近更加集中,极端值出现的概率较低,尾部衰减更慢(厚尾):表示数据在远离均值的地方仍有较高的概率,适合建模具有显著异常值的数据。

  • 对称性:关于均值 μ 对称。

  • 双指数衰减:概率密度函数以指数速度从中心向两侧下降。


2.2 数学公式

拉普拉斯分布的概率密度函数为:

  • 位置参数 μ:它决定了分布的中心位置,也即数据的集中趋势。如果 μ=0,则分布以0为中心对称。

    • 直观理解:μ 就是分布的“平均”位置,类似于高斯分布中的均值。
  • 尺度参数 b:它决定了分布的宽度和尾部的厚度,也即数据的分散程度。较大的 b 值表示分布较为平坦,尾部较厚,较小的 b 值则表明分布更集中。

    • 直观理解:b 控制了数据的波动幅度,b 越大,数据的“极端值”出现的概率越高,即尾部越厚。

方差的解释: 对于拉普拉斯分布,方差 σ2 可以通过尺度参数 b 计算得出:

这个关系说明,尺度参数 b 与方差是成正比的,b 越大,数据的波动性和不确定性就越大。

2.3 使用场景

 鲁棒回归

  • 特点:对异常值不敏感。

  • 应用:数据中存在显著异常值时,拉普拉斯分布比高斯分布更稳健。
    示例:房价预测中,少量极端高价房对模型影响较小。

稀疏信号处理

  • 特点:拉普拉斯分布是稀疏信号的自然先验。

  • 应用:压缩感知、图像去噪、L1正则化(Lasso回归)。
    示例:图像中大部分像素值为0或接近0,少数像素值较大。

 金融风险管理

  • 特点:厚尾特性适合捕捉极端事件。

  • 应用:资产收益率分布、风险价值(VaR)计算。
    示例:金融危机期间,资产价格波动显著增加。

贝叶斯推断

  • 特点:作为先验分布,拉普拉斯分布倾向于稀疏解。

  • 应用:贝叶斯Lasso、稀疏贝叶斯学习。

2.4 优缺点分析

优点

特性解释
对异常值鲁棒 厚尾特性使其对极端值不敏感,适合噪声较大的数据。
稀疏性 作为先验分布时,倾向于产生稀疏解(许多参数为0)。
计算简单 概率密度函数和累积分布函数有闭式解,便于计算。
对称性 关于均值对称,适合建模对称数据。

缺点

局限性解释
尖峰特性 中心峰值过高,可能对数据集中区域过度拟合。
仅适合对称数据 无法直接建模偏态数据(需扩展为不对称拉普拉斯分布)。
尾部衰减速度 虽然比高斯分布厚尾,但仍可能不足以捕捉某些极端事件(如学生t分布更厚尾)。

3 伯努利分布 

3.1 基本概念

  • 伯努利试验:一次试验只有两种可能的结果,通常称为“成功”和“失败”。

  • 伯努利随机变量:设 X是一个伯努利随机变量,其取值为:

    • X=1(表示“成功”),概率为 p

    • X=0(表示“失败”),概率为 1−p

概率质量函数(PMF)

伯努利分布的概率质量函数为:

其中:

  • 是“成功”的概率(0≤p≤1 )。

  • 1−p  是“失败”的概率。

期望和方差

  • 期望(均值):

    E[X]=p
  • 方差:

    Var(X)=p(1−p)

3.2 伯努利分布在神经网络中的应用

在神经网络中,伯努利分布常用于以下场景:

(1)二分类问题

  • 在二分类任务中,神经网络的输出通常表示某个类别的概率。

  • 假设输出为 y^,表示“成功”的概率 p,则“失败”的概率为 1−y^

  • 目标值 y 是一个伯努利随机变量,取值为 0 或 1。

(2)损失函数:二元交叉熵(Binary Cross-Entropy)

  • 在二分类问题中,常用的损失函数是二元交叉熵,其定义基于伯努利分布:

    其中:

    • 是真实标签(0 或 1)。

    • y^ 是模型预测的“成功”概率。

  • 二元交叉熵的本质是衡量真实分布(伯努利分布)和预测分布之间的差异。

(3)激活函数:Sigmoid

  • 在二分类问题中,神经网络的最后一层通常使用 Sigmoid 激活函数:

    • Sigmoid 将输出压缩到 [0,1] 范围内,可以解释为“成功”的概率 p

(4)Dropout

  • Dropout 是一种正则化技术,在训练过程中随机“丢弃”一部分神经元。

  • 每个神经元被“丢弃”的概率服从伯努利分布(通常 p=0.5 )。

3.4 伯努利分布与神经网络的关系

(1)输出层

  • 在二分类问题中,神经网络的输出层可以看作是一个伯努利分布的参数 p

  • 通过 Sigmoid 激活函数,将输出限制为 [0,1],表示“成功”的概率。

(2)最大似然估计

  • 在训练神经网络时,通常使用最大似然估计(MLE)来优化模型参数。

  • 对于伯努利分布,最大似然估计的目标是最大化以下似然函数:

    取对数后,等价于最小化二元交叉熵损失函数。

(3)生成模型

  • 在生成模型(如变分自编码器 VAE)中,伯努利分布常用于建模二值数据的分布。

  • 例如,在 MNIST 数据集中,像素值可以二值化为 0 或 1,此时可以用伯努利分布建模每个像素的概率。

3.5. 总结

  • 伯努利分布是描述二值随机变量的基本分布。

  • 在神经网络中,伯努利分布广泛应用于二分类问题、损失函数设计(如二元交叉熵)和正则化技术(如 Dropout)。

  • 通过 Sigmoid 激活函数,神经网络的输出可以解释为伯努利分布的参数 p

优点缺点
数学性质简单,易于理解和计算 仅适用于两类事件,无法处理多类别问题
适用于二分类问题,如图像、文本分类 对数据的噪声不太敏感,容易受到极端值的影响
posted @   Hi同学  阅读(18)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
点击右上角即可分享
微信分享提示