摘要: scikit-learn包下有计算TF-IDF的api,其效果也很不错。首先得安装Scikit-clearn Scikit-learn 依赖: Python (>= 2.7 or >= 3.4), NumPy (>= 1.8.2), SciPy (>= 0.13.3). 计算TF-IDF sciki 阅读全文
posted @ 2018-10-24 17:08 Sgoyi 阅读(1973) 评论(0) 推荐(0) 编辑
摘要: 简单的python实现 对于安装报错,c++编译错误问题:可以安装 Microsoft Visual C++ Build Tools() 例子转载(https://www.cnblogs.com/naive/p/5815433.html) 运行结果 从输出结果可以发现,存在不少误报样本,但是并不存在 阅读全文
posted @ 2018-10-24 11:21 Sgoyi 阅读(3109) 评论(0) 推荐(0) 编辑
摘要: 布隆过滤器(英语:Bloom Filter) 是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难,常见的补救办法是在建立一个小的白名单,存储那 阅读全文
posted @ 2018-10-24 10:21 Sgoyi 阅读(253) 评论(0) 推荐(0) 编辑