kalor

导航

 

2013年9月27日

摘要: 一.TF/IDF描述单个term与特定document的相关性TF(TermFrequency): 表示一个term与某个document的相关性。公式为这个term在document中出现的次数除以该document中所有term出现的总次数.IDF(Inverse DocumentFrequency)表示一个term表示document的主题的权重大小。主要是通过包含了该term的docuement的数量和docuementset的总数量来比较的。出现的次数越多,权重越小。公式是log(D/Dt)D是docuemnt set的总数量, Dt是包含了该term的document的总数。这样, 阅读全文
posted @ 2013-09-27 21:55 kalor 阅读(1661) 评论(0) 推荐(0) 编辑