文本模型

为了使计算机能够真正处理文本特征,必须对文本特征进行特征加权,将文本表示成计算机可以处理的数学向量

1.布尔模型--即命中模型

是基于特征项的严格匹配模型   可以看做向量模型的特例

根据特征是否在文档中出现   特征的权值只能取或

首先,建立一个二值变量的集合,这些变量对应于文本的特征项

文本用这些特征变量来表示

如果出现相应的特征项,则特征变量取

查询由 特征项 和  逻辑运算符 and  or   not  组成

文本与查询的匹配规则遵循布尔运算的法则

缺点:布尔模型作为文本的表示不精确   不能反映 特征项对于文本的重要性

缺乏定量的分析 过于严格

 

2.向量空间模型(vsm)

在向量空间模型中,文档被看作  一系列  无序词条的集合 

矢量空间模型以矢量表示文本

(ω1,ω2 ,...,ωi ,...,ωn) ,其中ωi 为第i个特征项的权重。

要将文本表示为矢量空间中的一个矢量,首先要将文本分词,由这些词作为向量的维数来表示文本

最初的矢量表示完全是0、1形式,当文本中出现了该词,那么文本向量的该词为1,否则为0.

这种方法无法体现这个词在文本中的作用程度,逐渐被更精确的词频代替。

词频分为绝对词频和相对词频,前者即词在文本中出现的频率表示文本,后者为归一化的词频

矢量空间模型将文档映射为一个特征矢量:

TF-IDF 公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;

另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。

向量空间模型的缺点在于项之间线性无关的假设。

在自然语言中,词或短语 之间存在着十分密切的联系,即存在‘斜交’想象

很难满足假定条件,因此对计算结果的可靠性造成一定的影响。

此外,将复杂的语义关系归结为简单的向量结构,丢失了许多有价值的线索

3.概率模型

概率模型是基于概率排序原则,对于给定用户查询Q,对所有文本计算概率,并从大到小排序

概率公式为

R表示文本D与用户查询Q相关

R`表示文本D与用户查询Q不相关

就是二值形式判断相关性

把文本用特征向量表示

其中,n为特征项的个数,xi 为0 或1 ,分别表示特征项i在文本中出现或不出现

 

决策树方法、关联规则方法和boosting方法就是基于 布尔模型;

而 knn法、svm方法、llsf是基于向量模型。

bayes推理网分类方法,则考虑了文档中 词之间的依赖关系

 

更好的理解概率模型:

概率排队原则的基本思想是:

当文本按照概率降序的原则进行排序时,可以获得最好的检索性能。

概率模型是一种基于概率排队原理的文本表示模型。

对于用户给定的查询,概率模型计算所有文档的概率,并按照文档概率的大小对文本进行降序排列

概率模型是利用词条与词条以及词条与文档之间的概念  相关性来进行信息检索的 文本表示模型

克服了 vsm模型和布尔模型 忽略词条相关性的缺点

 

4.图空间模型

为了进一步减小语义信息方面的损失,基于图的文本表示模型逐渐得到重视

例如 后缀树模型和频繁词集超图模型等

用图的形式反映特征间的相邻关系和次序关系

还包括使用二维视图方法,将特征的信息用二维平面的局部能量和全局能量表示。

一般该模型需要进行复杂的图处理,影响了后续机器学习的速度

 

posted @ 2019-06-26 11:21  leims  阅读(787)  评论(0编辑  收藏  举报