文本模型

为了使计算机能够真正处理文本特征，必须对文本特征进行特征加权，将文本表示成计算机可以处理的数学向量

1.布尔模型--即命中模型

是基于特征项的严格匹配模型可以看做向量模型的特例

根据特征是否在文档中出现特征的权值只能取或

首先，建立一个二值变量的集合，这些变量对应于文本的特征项

文本用这些特征变量来表示

如果出现相应的特征项，则特征变量取

查询由特征项和逻辑运算符 and or not 组成

文本与查询的匹配规则遵循布尔运算的法则

缺点：布尔模型作为文本的表示不精确不能反映特征项对于文本的重要性

缺乏定量的分析过于严格

2.向量空间模型（vsm）

在向量空间模型中，文档被看作一系列无序词条的集合

矢量空间模型以矢量表示文本

（ω1，ω2 ，...，ωi ，...，ωn），其中ωi 为第i个特征项的权重。

要将文本表示为矢量空间中的一个矢量，首先要将文本分词，由这些词作为向量的维数来表示文本

最初的矢量表示完全是0、1形式，当文本中出现了该词，那么文本向量的该词为1，否则为0.

这种方法无法体现这个词在文本中的作用程度，逐渐被更精确的词频代替。

词频分为绝对词频和相对词频，前者即词在文本中出现的频率表示文本，后者为归一化的词频

矢量空间模型将文档映射为一个特征矢量：

TF-IDF 公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；

另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。

向量空间模型的缺点在于项之间线性无关的假设。

在自然语言中，词或短语之间存在着十分密切的联系，即存在‘斜交’想象

很难满足假定条件，因此对计算结果的可靠性造成一定的影响。

此外，将复杂的语义关系归结为简单的向量结构，丢失了许多有价值的线索

3.概率模型

概率模型是基于概率排序原则，对于给定用户查询Q，对所有文本计算概率，并从大到小排序

概率公式为

R表示文本D与用户查询Q相关

R`表示文本D与用户查询Q不相关

有

就是二值形式判断相关性

把文本用特征向量表示

其中，n为特征项的个数，xi 为0 或1 ，分别表示特征项i在文本中出现或不出现

决策树方法、关联规则方法和boosting方法就是基于布尔模型；

而 knn法、svm方法、llsf是基于向量模型。

bayes推理网分类方法，则考虑了文档中词之间的依赖关系

更好的理解概率模型：

概率排队原则的基本思想是：

当文本按照概率降序的原则进行排序时，可以获得最好的检索性能。

概率模型是一种基于概率排队原理的文本表示模型。

对于用户给定的查询，概率模型计算所有文档的概率，并按照文档概率的大小对文本进行降序排列

概率模型是利用词条与词条以及词条与文档之间的概念相关性来进行信息检索的文本表示模型

克服了 vsm模型和布尔模型忽略词条相关性的缺点

4.图空间模型

为了进一步减小语义信息方面的损失，基于图的文本表示模型逐渐得到重视

例如后缀树模型和频繁词集超图模型等

用图的形式反映特征间的相邻关系和次序关系

还包括使用二维视图方法，将特征的信息用二维平面的局部能量和全局能量表示。

一般该模型需要进行复杂的图处理，影响了后续机器学习的速度

posted @ 2019-06-26 11:21 leims 阅读(906) 评论(0) 收藏举报

刷新页面返回顶部

leims

文本模型

公告