摘要: 本文分为两部分搜索关键词权重的科学度量TF-IDF利用python的工具包计算文本的TF-IDF1. 搜索关键词权重的科学度量TF-IDF查询:原子能的应用首先进行分词:原子能、的、应用根据直觉知道:包含这三个词较多的网页比包含少的网页与我们的需求相关性更好漏洞:内容多的比内容少的占优势改进:归一化。即用关键词的个数除以网页总的词数,商称为”单文本词频“TF(Term Frequency)。比如”原子能、的、应用“三个词出现的词数分别为2、35、5,网页中一共有1000个词,那么三个词的TF分别为:0.002、0.035、0.005。查询与网页的相关度即总词频公式如下。那么三者之和0.042就 阅读全文
posted @ 2013-09-18 23:12 jihite 阅读(2354) 评论(1) 推荐(1) 编辑