搜索核心原理之网页和查询的相关性——TF-IDF

1.相关性的演进：

i.单文本词频TF（Term Frequency）

用关键词的出现的次数除以文章的总次数，做归一化处理得到TF，来屏蔽文章长度对用关键词出现次数来衡量相关性时的影响

ii.搜索关键词权重的度量IDF：

需要给每个此赋以权重，来区分查询中词的重要性：

a.一个词预测主题的能力越强，其权重越大

b.停止词（的是和这类无用词）的权重为0

逆文本频率指数IDF（Inverse Document Frequency）：公式为log(D/Dw)，其中一个关键词在Dw个网页中出现过，Dw越大，词w的权重越小

iii.相关性的度量（TF-IDF：Term Frequency/Inverse Document Frequency）：

词频的加权求和：∑TF(w)*IDF(w)

2.TF-IDF的信息量依据

i.查询中每个关键词w的权重应该反映这个词对这个查询提供了多少信息，用此的信息量来作为权重：

I(w)=-P(w)logP(w)=-(TF(w)/N)*log(TF(w)/N)

而语料库此的总数N是一定的，所以I(w)=-TF(w)*log(TF(w)/N)

漏洞：一个词在一篇文献中出现TF次和一个词在所有文献中出现TF次，信息量是一样的

ii.提出假设：

a.每篇文章的大小基本相同，均为M个词，M=N/D

b.假设在一篇文章中关键词出现的次数，与其贡献无关，那么一个词在一篇文献中出现的平均次数C(w)=TF(w)/D(w)，C(w)<M

则-TF(w)*log(TF(w)/N)=TF(w)*log(N/TF(w))=TF(w)*log(MD/C(w)D(w))=TF(w)*log(D/D(w))+TF(w)*log(M/C(w))

即I(w)=TF-IDF+TF(w)*log(M/C(w))，有TF-IDF=I(w)-TF(w)*log(M/C(w))

显然，IDF与词的信息量成正比，同时在w命中的文献中w出现的平均次数越多，C(w)越小，贡献越大

posted @ 2017-01-16 15:15 成金之路阅读(635) 评论(0) 编辑收藏举报

刷新页面返回顶部

成金之路