矩阵运算和文本处理中的分类问题

1.文本的分类可以和《集体智慧编程》中的新闻分类方法结合起来

《集体智慧编程》最后是用权重矩阵和特征矩阵的迭代来找出成本最低的量矩阵，而本文将用到矩阵的奇异值分解（Singular Value Decomposition，简称SVD），来对准备好的矩阵进行分解

同时矩阵中的数值是各个单词的TF-IDF，而不是《集体智慧编程》中的次数

2.数据准备：

M篇文章，N个词，构成M*N的矩阵：

其中

元素，是字典中第j个词在第i篇文章中的加权词频（如TF-IDF）

100万篇文章中如果有50万个词，则有5000亿个元素，无法用余弦进行计算

3.奇异值分解后矩阵的意义：

i.X矩阵：

对词分类的一个结果，每一行一个词，每一列标识一个语义相近的此类，简称为语义类，每一行的元素代表这个词在此语义类中的重要性或者相关性

ii.Y矩阵：

对文本的分类记过，每一列对应一个文本，每一行对应一个主题，列中每个元素标识这篇文本与不同主题的相关性，如果仅用最大值来标识文章的文类，那么所有的文章都被唯一的分到一类主题中

iii.B矩阵：

表示词的类和文章的类之间的相关性，即语义类和主题的相关性

3.奇异值分解方法

i.奇异值分解定义：

其中X是一个酉矩阵（它和它的共轭矩阵的转置的乘积等于单位矩阵），Y则是一个酉矩阵的共轭矩阵（注意不是X的），而B是一个对角矩阵，即只有对角线上是非零值

ii.分解过程：

a.将A变换为一个双对角矩阵，计算量为O(M(N^2))，当M>N时，利用A的稀疏性可以大大缩短计算时间

b.奇异值分解，跟a比，计算时间可以忽略不计

iii.和余弦定义计算文本相似度比较：

用奇异值分解求文本相似度和用余弦定理计算的一次迭代时间，在同一个数量级，但是奇异值只需要计算一次，同时奇异值方法需要大内存来存储整个矩阵

4.应用场景

和余弦分类利用距离自底向上的分类方法相比，奇异值能更快的得到结论，但是得到的分类结果略显粗糙，因此奇异值分类更适合大规模的粗分类，然后对得到的粗分类再利用余弦分类方法进行几次迭代，得到比较精确的结果；有事互补

posted @ 2017-01-16 15:20 成金之路阅读(868) 评论(0) 收藏举报

刷新页面返回顶部

成金之路