SVD与文本摘要

文本摘要（Text Summarization）就是从原始文献中提取一个简短的文摘，文摘是全面准确地反映某一文献中心内容的简单连贯的短文。下面介绍一种利用SVD进行文本摘要的方法，其本质是提取到语料中较为“重要”的句子，主要思想均出自参考文献1和2中。

一、SVD概念

SVD（Singular value decomposition）就是奇异值分解，学过线性代数的一定还对应什么奇异非奇异的字样有点印象吧。不过这个奇异值跟矩阵是奇异或非奇异的关系貌似不大。直接上概念，对于m×n阶矩阵A进行奇异值分解

$A=U{\Sigma }V^{T}$

其中U为m×m阶正交矩阵，∑是m×n阶对角阵，对角线上的元素就是A的奇异值啦，V^T是n×n阶正交矩阵。下面是Wiki中的一个小例子。

对于矩阵M，对应的SVD分解如下

可以看到U和V^T都是正交矩阵。在实际应用中常使用矩阵A的近似分解 $A=U\tilde{\Sigma }V^{T}$ ，其中 $\tilde{\Sigma }$ 中只保留了原分解中最大的 r（r < n ）个值，这样U为阶m×r，V^T为r×n阶。通过这样的降维操作，可以起到减少数据量，去除原始数据中的噪声等作用。

矩阵A的SVD与矩阵A的特征值和特征向量有没有关系呢

$A^{T}A=V\Sigma ^{T}U^{T}U\Sigma V^{T}=V(\Sigma ^{T}\Sigma)V^{T} \Rightarrow A^{T}AV=V(\Sigma ^{T}\Sigma )$

即V的列向量即为A^TA的特征向量，同理，U的列向量为AA^T的特征向量，而∑的对角线元素即为A^TA或AA^T的特征值的平方根。

二、文本的矩阵表示

既然要用到SVD，先得把文本用矩阵表示出来吧。首先把文本分成一个一个的句子，比如下面是语料中得到的一些句子。

1. The Neatest Little Guide to Stock Market Investing

2. Investing For Dummies, 4th Edition

3. The Little Book of Common Sense Investing: The Only Way to Guarantee Your Fair Share of Stock Market Returns

4. The Little Book of Value Investing

5. Value Investing: From Graham to Buffett and Beyond

6. Rich Dad's Guide to Investing: What the Rich Invest in, That the Poor and the Middle Class Do Not!

7. Investing in Real Estate, 5th Edition

8. Stock Investing For Dummies

9. Rich Dad's Advisors: The ABC's of Real Estate Investing: The Secrets of Finding Hidden Profits Most Investors Miss

对上面的文本进行分词，去除停词（to、and、the之类的），并且只记录在2个或者2个以上句子中出现过的词，得到下面的的矩阵，其中第i行第j列元素代表第i个单词在第j个句子中出现次数。实际上矩阵的每一列都是一个句子的词频（TF）向量，这种表示叫做文本的向量空间模型（VSM）。

	T1	T2	T3	T4	T5	T6	T7	T8	T9
book			1	1
dads						1			1
dummies		1						1
estate							1		1
guide	1					1
investing	1	1	1	1	1	1	1	1	1
market	1		1
real							1		1
rich						2			1
stock	1		1					1
value				1	1

三、文本摘要模型的建立

下面介绍如何通过假设和推导得到基于SVD的文本摘要模型。矩阵A代表m×n阶的词-句子矩阵， $a_{ij}$ 代表A中第i行j列的非零元素。定义两个向量，m维的向量 $u$ ，其中每个元素代表对应词的重要性评分；n维向量 $\upsilon$ ，其中每个元素代表对应句子的重要性评分。2中提出的互相增强原则（mutual reinforcement principle），如果一个词出现在许多具有高评分的句子中，这个词也应该具有较高的评分；如果一个句子包含许多具有高评分的词，这个句子也应当具有较高的评分。根据这一假设有：

$\mu _{i}\propto \sum_{j=1}^{n}a_{ij}\upsilon _{j}, i=1,2,...,m$

$\upsilon _{j}\propto \sum_{i=1}^{m}a_{ij}\mu _{i}, j=1,2,...,n$

表示成更通用的形式：

$\sigma _{u}u=A\upsilon$ (1)

$\sigma _{v}\upsilon=A^{T}u$ (2)

其中 $\sigma _{v}$ 、 $\sigma _{u}$ 为比例常数，把(1)变一下， $u=\frac{1}{\sigma _{u}}A\upsilon$ ，代入(2)式得到 $\sigma _{v}\upsilon=\frac{1}{\sigma _{u}}A^{T}A\upsilon$ ，同理可以得到 $\sigma _{u}u=\frac{1}{\sigma _{v}}AA^{T}u$ ，这两个式子可以看出 $\upsilon$ 实际上为是A^TA的特征向量， $u$ 实际上是AA^T的特征向量，回忆前面SVD的定义实际上， $u$ 、 $\upsilon$ 其实是的 r=1 时A的SVD分解，即 $A\approx u\lambda \upsilon$ 。