文本模型
为了使计算机能够真正处理文本特征,必须对文本特征进行特征加权,将文本表示成计算机可以处理的数学向量
1.布尔模型--即命中模型
是基于特征项的严格匹配模型 可以看做向量模型的特例
根据特征是否在文档中出现 特征的权值只能取或
首先,建立一个二值变量的集合,这些变量对应于文本的特征项
文本用这些特征变量来表示
如果出现相应的特征项,则特征变量取
查询由 特征项 和 逻辑运算符 and or not 组成
文本与查询的匹配规则遵循布尔运算的法则
缺点:布尔模型作为文本的表示不精确 不能反映 特征项对于文本的重要性
缺乏定量的分析 过于严格
2.向量空间模型(vsm)
在向量空间模型中,文档被看作 一系列 无序词条的集合
矢量空间模型以矢量表示文本
(ω1,ω2 ,...,ωi ,...,ωn) ,其中ωi 为第i个特征项的权重。
要将文本表示为矢量空间中的一个矢量,首先要将文本分词,由这些词作为向量的维数来表示文本
最初的矢量表示完全是0、1形式,当文本中出现了该词,那么文本向量的该词为1,否则为0.
这种方法无法体现这个词在文本中的作用程度,逐渐被更精确的词频代替。
词频分为绝对词频和相对词频,前者即词在文本中出现的频率表示文本,后者为归一化的词频
矢量空间模型将文档映射为一个特征矢量:
TF-IDF 公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;
另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
向量空间模型的缺点在于项之间线性无关的假设。
在自然语言中,词或短语 之间存在着十分密切的联系,即存在‘斜交’想象
很难满足假定条件,因此对计算结果的可靠性造成一定的影响。
此外,将复杂的语义关系归结为简单的向量结构,丢失了许多有价值的线索
3.概率模型
概率模型是基于概率排序原则,对于给定用户查询Q,对所有文本计算概率,并从大到小排序
概率公式为
R表示文本D与用户查询Q相关
R`表示文本D与用户查询Q不相关
有
就是二值形式判断相关性
把文本用特征向量表示
其中,n为特征项的个数,xi 为0 或1 ,分别表示特征项i在文本中出现或不出现
决策树方法、关联规则方法和boosting方法就是基于 布尔模型;
而 knn法、svm方法、llsf是基于向量模型。
bayes推理网分类方法,则考虑了文档中 词之间的依赖关系
更好的理解概率模型:
概率排队原则的基本思想是:
当文本按照概率降序的原则进行排序时,可以获得最好的检索性能。
概率模型是一种基于概率排队原理的文本表示模型。
对于用户给定的查询,概率模型计算所有文档的概率,并按照文档概率的大小对文本进行降序排列
概率模型是利用词条与词条以及词条与文档之间的概念 相关性来进行信息检索的 文本表示模型
克服了 vsm模型和布尔模型 忽略词条相关性的缺点
4.图空间模型
为了进一步减小语义信息方面的损失,基于图的文本表示模型逐渐得到重视
例如 后缀树模型和频繁词集超图模型等
用图的形式反映特征间的相邻关系和次序关系
还包括使用二维视图方法,将特征的信息用二维平面的局部能量和全局能量表示。
一般该模型需要进行复杂的图处理,影响了后续机器学习的速度