摘要: TF-IDF值:http://www.cnblogs.com/iwaitu/archive/2011/12/28/2304714.html 一种统计方法,用于评估一个词对N篇文章中的一篇的重要性。一个词在一片文章中出现的次数不能表明该词的重要性,例如:“我们”,“的”等,所以需要TF-IDF值来表示该词的重要性。 TF(Term Frequency)词频:该文章中出现该词的次数除以文章总词数。 IDF(Inverse Document Frequency)逆向文档词频:IDF=log(D/Dt),即总文章数(D)除以该词出现的文章数(Dt),对商取对数(log) TF-IDF = TF值 * 阅读全文
posted @ 2012-10-31 21:04 boyz 阅读(1274) 评论(0) 推荐(0) 编辑