条件随机场(CRF)的详细解释
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,常用于标注或分析序列资料,如自然语言文字或是生物序列。近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
条件随机场是一类最适合预测任务的判别模型,其中相邻的上下文信息或状态会影响当前预测。CRF 在命名实体识别、词性标注、基因预测、降噪和对象检测问题等方面都有应用。
在本文中首先,将介绍与马尔可夫随机场相关的基本数学和术语,马尔可夫随机场是建立在 CRF 之上的抽象。然后,将详细介绍并解释一个简单的条件随机场模型,该模型将说明为什么它们非常适合顺序预测问题。之后,将在 CRF 模型的背景下讨论似然最大化问题和相关推导。最后,还有一个过对手写识别任务的训练和推理来演示 CRF 模型。
马尔可夫随机场
马尔可夫随机场(Markov Random Field)或马尔可夫网络( Markov Network)是一类在随机变量之间具有无向图的图形模型。该图的结构决定了随机变量之间的相关性或独立性。
马尔可夫网络由图 G = (V, E) 表示,其中顶点或节点表示随机变量,边表示这些变量之间的依赖关系。
该图可以分解为 J 个不同的团(小的集团 cliques )或因子(factors),每个由因子函数 φⱼ 支配,其范围是随机变量 Dⱼ 的子集。对于 dⱼ 的所有可能值,φⱼ (dⱼ) 应该严格为正。
对于要表示为因子或团的随机变量的子集,它们都应该在图中相互连接。所有团的范围的并集应该等于图中存在的所有节点。
变量的非归一化联合概率是所有因子函数的乘积,即 对于上面显示的 V = (A, B, C, D) 的 MRF,联合概率可以写为:
分母是每个变量可能取的所有可能的因子乘积的总和。它是一个常数表示,也称为配分函数,通常用Z。
Gibbs Notation
还可以通过对对数空间中的因子函数进行操作,将关节表示为Gibbs 分布。使用 β (dⱼ) = log (ϕ (dⱼ)),可以用 Gibbs 表示法表示共同的边,如下所示。X 是图中所有随机变量的集合。β 函数也称为factor potentials。
这个公式很重要,因为本文将在后面使用 Gibbs 符号来推导似然最大化问题。
条件随机场模型
让我们假设一个马尔可夫随机场并将其分为两组随机变量 Y 和 X。
条件随机场是马尔可夫随机场的一个特例,其中图满足以下属性:“当我们在 X 全局条件下,即 当X中随机变量的值固定或给定时,集合Y中的所有随机变量都遵循马尔可夫性质p(Yᵤ/X,Yᵥ,u≠v)=p(Yᵤ/X,Yₓ,Yᵤ~Yₓ ),其中 Yᵤ ~ Yₓ 表示 Yᵤ 和 Yₓ 是图中的邻居。” 变量的相邻节点或变量也称为该变量的马尔可夫毯(MarkovBlanket)。
满足上述属性的一个这样的图是下面共享的链结构图:
由于 CRF 是一个判别模型,即 它对条件概率 P (Y / X) 进行建模,即 X 总是给出或观察到。因此,该图最终简化为一条简单的链。
当我们以 X 为条件并试图为每个 Xᵢ 找到相应的 Yᵢ 时,X 和 Y 也分别称为证据变量和标签变量。
验证上面显示的“因子缩减”CRF模型符合下面为可变Y₂所示的马尔可夫属性。由此可见,给定所有其他变量的Y₂的条件概率最终只取决于相邻节点。
满足马尔可夫性质的变量 Y₂,条件仅取决于相邻变量
完整文章:
https://www.overfit.cn/post/921370f1880e4472814ace6a8ac850da