摘要: tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天... 阅读全文
posted @ 2015-12-23 22:01 木羊羊羊 阅读(1882) 评论(1) 推荐(0) 编辑
摘要: tf–idf算法解释tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息检索和文本挖掘中。一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要,但同时如果这个词又在非常... 阅读全文
posted @ 2015-12-23 20:39 木羊羊羊 阅读(1449) 评论(0) 推荐(0) 编辑
摘要: Counter是dict的子类,所以它其实也是字典。只不过它的键对应的值都是计数,值可以是任意整数。下面是四种创建Counter实例的例子:>>> c = Counter() # a new, empty counter>>> c = Counte... 阅读全文
posted @ 2015-12-23 19:36 木羊羊羊 阅读(446) 评论(0) 推荐(0) 编辑