week4

Markov Network(马尔科夫网络)

1.Pairwise Markov Network（配对马尔科夫网络）

先看一个简单的例子，Alice、Bob、Debbie、Charles他们在一起成对学习，两个人的影响比如Alice和Bob，可能影响是由Alice流向Bob，也可能是由Bob流向Alice，我们不清楚具体的影响流向故用一个无向图来表示，两个人之间的影响即它们之间可能存在分歧或不存在分歧。

因为是无向图我不知道具体的影响方向，故不能用条件概率分布来参数化，那么我们如何参数化呢？我们引入一个factor
mk2
在这里φ₁[A,B]即是一个factor，其中a⁰,b⁰表示A和B之间没有分歧，愿意待在一起的情况，为30，30为一个表示程度的数字。
mk3
现在我们有了一个无向图的几个小部分，那么如何表示整个图的联合分布呢？
利用这些factor的乘积来表示整个无向图的联合分布。
mk4
此时还不是一个正确的概率分布，因为它不满足总和为1，我们进一步需要将其标准化。
mk6

思考：pairwise factor φ₁[A,B]所代表的是什么？
mk7
答案None of the above
mk8
对于如上图来说，左边是A和B的边缘概率，可以看到a⁰,b⁰的概率是0.13，而右边φ₁[A,B]中a⁰,b⁰为30，是四种情况中的最大值，而右边最大值是a⁰,b¹的情况。从右图我们可以看出对于B点来说B更倾向于同意C，因为b⁰,c⁰为100，远远高于30，而A更倾向于D，C更不倾向于D，这也就是说我们不同简单的直接将φ₁[A,B]分离出来看作是边缘概率P(A,B) ,边缘概率P(A,B)是跟整个图即4个点都有关的！
mk9

2.General Gibbs Distribution(吉布斯分布)

一种比Pairwise Markov Network更高效，能更好的表达概率分布的一种模型。

2.1 参数化

D_i是参数的集合，可以有多个参数，φ_i(D_i)是一个factor，φ={φ_i(D_i)}是关于factor的集合。
gd2

2.2 Gibbs Distribution

gd3

2.3 Induced Markov Network

给定我们一个具体的吉布斯分布factor的乘积，我们如何得到一个Markov Network.
gd4
对于比如φ_i(A,B,C)来说就是构建一个关于这三个顶点的无向完全图，将factor的集合φ中的所有φ_i都构建完，所得到的无向图即最终的马尔科夫网。

2.4 Factorization(分子因解)

gd5
例子：
gd6
答案是All of the above
能构成无向完全图的顶点组成一个φ_i，并且所有的φ_i是一个等价类划分

2.5 Flow of Influence

gd7

2.6 Active Trails

gd8
X1...Xn 之间的路径上没有Xi被观测到。

3.Conditional Random Fields(条件随机场)

是马尔科夫网络的一种变体。它是一种非常类似马尔科夫网络的一种模型，但是与马尔科夫网络不同的是它的用处。

3.1 Task-specific prediction

Conditinoal Random Fields经常用来处理Task-specific prediction（具体任务预测），在Task-specific prediction中我们有一系列input或是观测值X，以及一系列预测值Y，其中X与Y是同类型的variables。
crf

看一个例子
crf2
prediction问题我们可以用如图的朴素贝叶斯模型来表示，这里的Ci即预测值Y，X_i1...X_ik为input或是观测值。
但是这种表示并不是一种好的表示方法，因为对于如图中的像素点来说，每个像素点之间有着很强的联系，每个像素点有多个方向的像素点与之联系，这样当得到不同的预测值时，可能会有重复的观测值X_i,这就使得模型中数据可能会产生冗余，这样所得到的概率假设是不正确的，如果想要得到正确的就需要向其中添加表示联系的边，但是这是很难实现的！

3.2 CRF Representation

为了解决以上的问题，我们引入CRF，利用CRF模型来表示。利用CRF，我们不关心X_i之间的关系，即不按照P(X,Y)来建模，而是将所有的X_i看作是一个整体，即按照P(Y|X)来建模。

CRF定义
crf3

例子：将Logistic Model用CRF表示
crf4
仅仅是对所有X如何影响Y来建模。

4 Independencies in Markov Network

4.1 Separation

与D-separation不同，Separatioin是无向图中的。
iim
当A和E是separated的条件是，A到E的迹上有点被观测到

4.2 I-map

iim2
iim3
iim4
iim5

5 I-Map与Perfect Maps

概率图模型就是用简洁明了的 Graph 来紧凑表示复杂的概率分布，Graph 的 node 表示随机变量，edge 表示直接的概率关系。但给定一张 Graph，这张 Graph 能否等价地表示这个概率分布呢？这就是 I-map 这块要回答的。

5.1 Capturing Independencies in P

P是一个概率分布I(P)代表，在P中满足给定Z的情况下X与Y独立的这种独立性断言的集合。

P是图G的因子分解，那么G就是P的一个I-Map
im2
分布P的I-Map可以有多个！！！
im3
一个概率分布P包含一堆条件独立关系，把这些条件独立关系的集合称为I(P)；一张图G也包含了一堆条件独立性关系，把这些关系的集合称为I(G)，如果I(G)⊆I(P),那G为P的一个I-Map

5.2 Minimal I-Map（最小I-Map）

现在我们想要一个更稀疏的图，也就是说这个图有更少的参数，并且更能表示信息，尽可能地表示P中地独立性结构。
im5
比如说图中X->Y，如果说P(Y|x⁰)=P(Y|x¹),那么X,Y之间的边就可以去掉！

定义：假如K是独立关系集I的一个I-Map，并且从K中移除一条甚至是单边的边都会使其不再是I-Map，那么图K是I的最小I-Map

类似于最小生成子图

最小I-Map也许仍不能表示一个I(P)
一个I(p)可能会有多个最小I-Map，它们可能是不同的图，因此可能不能从最小I-Map G中读出P的所有独立性。
例子：我们假设I(P)只包含一个独立性断言那就是（D⊥I）
看一个P的最小I-Map：
im6
从这个图可以看出I(G)中只包含（D⊥I）这一个独立性断言，满足I(G)⊆I(P)，故它是P的一个I-Map，同时如果去掉一个边，假如去掉C->G边，则I(G)便变成（D⊥I）（D⊥G）不满足I(G)⊆I(P)，故它为P的一个I-Map。
再看一个不同的I-Map：
im7
在这个图中不存在独立性断言即I(G)是一个空集，也满足I(G)⊆I(P)，同时如果去掉任意一个边会有如图的独立性，此时便不满足
I(G)⊆I(P)，故它也是P的一个最小I-Map。

5.3 Perfect Map

对于分布P的Perfect Map，它可以准确的表示P中所有的独立性。

5.3.1 BNs As A Perfect Map

im8
但是Perfect Map是很难实现的！并不是每一个分布都有其Perfect Map
例子：一个不包含Perfect Map的分布P的例子(利用马尔科夫所给出的分布P，找其对应的贝叶斯网络Perfect Map)。
这里有一个以pairwise Markov networks表示的分布P
im9
但是对于马尔科夫网络来说，较容易找到Perfect Map

5.3.2 MN As A Perfect Map

im10
并不能用一个MN Perfect Map去表示所有可能的分布！
这里有一个具有Perfect Map的分布P,是以BNs形式而不是MN，也是之前所谈到的V结构，对于这个图来说有I(P)={(D⊥I)}
im11
考虑其对应的马尔科夫网络,这种情况下显然不满足I(G)⊆I(P)。
im12
再看这种形式，也不满足I(G)⊆I(P)
im13
所以说对于分布P来说没有马尔科夫网络的Perfect Map

5.3.4 Uniqueness of Perfect Map

一个分布的表示实际上是唯一的，并且可以用某些图来表示，如果用Perfect Map来表示，那么这个分布的Perfect Map是唯一的。

5.3.5 I-equivalence

im14

5.3.6 总结

im15
im16

6 Log-Linear Models（对数线性模型）

主要用来将local structrue 结合到无向图中

6.1 Log-Linear Representation

首先我们定义P为φ的成绩，其中φ为factor。之后我们将其转换成右侧的形式，其中求和部分组成一个线性函数，f_j为feature，feature类似于factor，但与之不同的是feature的scope是可以相同的！
llm
例子：利用log-linear model去表示一个简单的table factor
llm2
note

6.2 Feature

对于Log-Linear Models，关键在于feature的构建，通过设计构建一个较完整丰富的feature，比枚举所有的可能性来说，可以避免有过多的参数，是非常高效的。
例子：自然语言处理中的feature。

例子：一个用在统计物理学中基于feature的模型——Ising Model
llm3

6.3 Metric Feature

Metric Feature是一类用途非常广泛的一类feature。
它是由一系列变量构成，并且它们都从label space V中取值，比如V中只有0，1那么所有的变量都取0或1，如果V中有1，2，3，4那么所有的变量就从这些数中取值。
我们想要做的是，假设我们有Xi和Xj，我们想要Xi和Xj去取“相似”的值。

那么为了定义Xi和Xj之间值的相似性，那么我们用一个Distance function来表示它们之间的相似性：
mf3
接下来将Distance function实际应用到Distance function中：
fm4

7 Knowledge Engineering（知识工程）

前面我们已经学习了许多关于知识表示的部分，现在让我们将这些小的部分结合到图模型中即建模。

7.1 Important Distinctions

根据具体要求我们要知道模型之间的区别选择正确类型的模型去建模。

通常是用混合模型

7.1.1 Template-based vs Specific

	Template-based	Specific
实际应用	例如：image segmentation	例如：medical diagnosis
the number of variable types	small	big

7.1.2 Generative vs Discriminative

Discriminative:首先你要有一个具体的predictive task以及一些丰富的表达能力强的feature，这样当我们在建Discriminative model时可以避免处理一些correlations，从而实现高性能。
Generative：相比于Discriminative model在某些特定领域更容易训练。

7.2 Variable Types

构建一个图模型我们需要以下类型的变量：
ke2

7.3 Structure

ke3

7.4 Extending the Conversation

如何实际构造一个图模型呢？
例子：一个关于lung Cancer的例子。
假如我们问医生病人是否患有肺癌，医生可能会说，这取决病人是否抽烟等情况，而对于抽烟来说可能还取决于程度，比如说这个人抽烟抽了多久，一天抽多少等等。另一方面，对于肺癌来说，患者会有什么症状，比如咳嗽或是咳血等等。
ke4
可以看出构建一个图模型是由一个点出发，加上所有与其相关的部分，以及事件查询结果的总体。

7.5 Parameters

7.5.1 Parameters：Values

零概率：对于0值要，也就是0概率要格外小心，一个常见的错误就是将一个不太可能但是不是完全不可能的事件的概率赋值为0.所带来的问题是无论获得的证据由多少，我们都无法以0概率事件为条件。
数量级：在概率非常低的事件中，微小差异会给网络结果带来很大的改变。
相对值：对p(x|y)来说，关于Pa_x的不同值y的相对大小颇为敏感，例如，网络对“患者患肺炎发高烧的概率大于患流感发高烧的概率”这一事件正确编码非常重要。
ke5

7.5.2 Parameters：Local structure

对CPD进行一个分类：
ke6

这里有一下方法，可以加强你的图模型表示。
ke7

posted @ 2022-05-12 09:51 倒车入库阅读(117) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· week1

· week6

· 概率图模型:原理与技术-4 马尔科夫网络 MRF

· 概率图模型基础

· 概率图 | 两次小测的笔记存档

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配，妙~啊~

公告

昵称：倒车入库
园龄： 2年11个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

longroadtobigfactory