Independent Components Analysis:独立成分分析

一、引言

ICA主要用于解决盲源分离问题。需要假设源信号之间是统计独立的。而在实际问题中,独立性假设基本是合理的。


二、随机变量独立性的概念

对于任意两个随机变量X和Y,如果从Y中得不到任何关于X的信息,反之亦然,则可称随机变量X和Y是相互独立的。如,两个不同的物理过程产生的随机信号就是相互独立的。
从数学的角度讲,随机变量X和Y统计独立,当且仅当他们的联合概率密度可以分解为边缘密度的乘积,即
$ P(x,y) = P_X(x)P_Y(y) $


三、ICA的定义

ICA使得被分析信号各成分之间的统计依赖性最小化,突出了源信号的本质结构。目前,ICA最富前景的两项应用为盲源分离和特征提取。

ICA采用瞬时混合模型,具体参见http://www.cnblogs.com/90zeng/p/Independent_Components_Analysis.html

从统计分析角度出发,将时间序列\(x_i(t)\)\(y_j(t)\),\(t=1,2,3,....,T\)看成随机变量的T次实现,这样将会忽略信号的时间特性。将\(x_i(t)\),\(y_j(t)\)等时间序列简记为\(x_i\),\(y_j\),这种做法能在很大程度上弥补由时域分析方法的局限性带来的不足。假设这些随机变量的取值连续,且不失一般性,设其中所有成分都是零均值。


四、ICA的估计原理

ICA的假设和约束条件:

  1. 源信号\(s_i(i=1,....,m)\)都是零均值的实随机变量,且任意时刻均相互统计独立。
  2. 源信号数m应小于或等于观测信号数n。
  3. \(s_i\)中只允许一个源信号满足高斯分布。
    由于两个统计独立的白色高斯信号混合后还是白色高斯信号,其概率分布函数只涉及二阶统计特性,没有高阶统计特性可利用,所以它们的独立性等同于互不相关。若服从高斯分布的源信号超过一个,则各源信号不可分。
  4. 各传感器引入的噪声很小,可以忽略不计。
  5. 对各源信号的概率分布函数略有一些先验知识。
    例如,自然界的语音和某些音乐信号具有超高斯分布(拉普拉斯分布);图像信号大多为亚高斯特性(如均匀分布);许多噪声则接近高斯特性;当\(s_i\)为多个随机变量之和时,其概率密度函数也接近高斯分布函数(中心极限定理)。

ICA的数学模型
ICA的性质依赖于目标函数和最优化算法两个方面。
用ICA处理的目的就是找到混合信号x的一个线性变换矩阵W,使得输出尽可能的独立,即
\(y(t) = Wx(t) = WAs(t)\)

ICA解混模型

  1. 相关系数
  2. 性能指标

http://book.douban.com/subject/5978830/

ICA的不确定性

  1. 分离信号排序(permutation)的不确定
  2. 信号尺度(scaling)的不确定性

ICA与白化
零均值随机向量y是白色信号,是指它的各个分量具有单位方差且相互不相关,即y的协方差矩阵为单位矩阵。
对于任意多维信号施加一个线性变换使其成为白色信号的处理过程称为白化(whiting)或全球化(sphering)或归一化解相关,对应的变换矩阵称为白化矩阵。
对于白化后的数据进行盲分离,分类矩阵W必为正交矩阵。

四、ICA的基本方法

  1. ICA的目标函数
    目标函数是一个将\(y(t)\)的概率密度分布集合映射到一个实值函数的算子,记为\(\psi (y)\)。目标函数实际上是随机变量概率密度函数的泛函,只有当随机变量相互独立时,目标函数才能到到最大值或最小值。

最大非高斯性
中心极限定理表明,两个独立随机变量的和的分布比其中任意一个分量的分布更接近高斯分布。
假设向量X是观测向量,\(X=AS\)。如果要顾及一个独立成分,需要考虑X各分量的一个线性组合\(y=b^TX\)。根据中心极限定理只需要改变b,直到取得了能使\(b^TX\)非高斯性最大的b,这样y就是一个独立成分。

最小互信息(minimum mutual information)

posted @ 2015-05-09 19:03  醉天一叟  阅读(564)  评论(0编辑  收藏  举报