摘要: 这篇文章将将TF-IDF的python实现。TF-IDF的原理可以参考:TF-IDF学习笔记(一) (一)库介绍 使用的库为Scikit-learn:它是一个用于数据挖掘和数据分析的简单且有效的工具,它是基于Python的机器学习模块,基于BSD开源许可证。 Scikit-learn的基本功能主要被 阅读全文
posted @ 2018-07-18 19:53 小糊涂也学要编程 阅读(1154) 评论(0) 推荐(0) 编辑
摘要: (一)介绍 TF-IDF称为词频-逆文件频率,那么它是用来干吗的哪? 假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的关键词。 一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF) 阅读全文
posted @ 2018-07-18 19:20 小糊涂也学要编程 阅读(287) 评论(0) 推荐(0) 编辑