摘要: scikit-learn包下有计算TF-IDF的api,其效果也很不错。首先得安装Scikit-clearn Scikit-learn 依赖: Python (>= 2.7 or >= 3.4), NumPy (>= 1.8.2), SciPy (>= 0.13.3). 计算TF-IDF sciki 阅读全文
posted @ 2018-10-24 17:08 Sgoyi 阅读(1973) 评论(0) 推荐(0) 编辑
摘要: 简单的python实现 对于安装报错,c++编译错误问题:可以安装 Microsoft Visual C++ Build Tools() 例子转载(https://www.cnblogs.com/naive/p/5815433.html) 运行结果 从输出结果可以发现,存在不少误报样本,但是并不存在 阅读全文
posted @ 2018-10-24 11:21 Sgoyi 阅读(3109) 评论(0) 推荐(0) 编辑
摘要: 布隆过滤器(英语:Bloom Filter) 是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难,常见的补救办法是在建立一个小的白名单,存储那 阅读全文
posted @ 2018-10-24 10:21 Sgoyi 阅读(253) 评论(0) 推荐(0) 编辑
摘要: TF-IDF介绍(详见):https://www.cnblogs.com/yhll/p/9831267.html 例子: 假设有一篇文章包含了10000个词组,其中“中国”、“石油”、出现100次,“开采”出现200次,“的”出现500次(假设没有去除停用词) 语料库中共有1000篇文档,其中包含“ 阅读全文
posted @ 2018-10-22 18:20 Sgoyi 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 什么是TF-IDF[维基百科] TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重 阅读全文
posted @ 2018-10-22 17:19 Sgoyi 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 网络 通用 异步 网络爬虫框架 功能齐全的爬虫 其他 HTML/XML解析器 通用 清理 阅读全文
posted @ 2018-10-09 15:22 Sgoyi 阅读(1121) 评论(0) 推荐(0) 编辑
摘要: RabbitMQ是一个消息中间件——接收和发送消息。你可以把它想象成一个邮局,当你把邮件投递到邮箱后,你就可以确信邮递员最终会帮你把邮件寄给收件人。 RabbitMQ简介(可跳转) 术语: 生产者——发送消息; 队列:“邮箱”,存在于RabbitMQ内。虽然消息可以在RabbitMQ及应用中流转,但 阅读全文
posted @ 2018-09-30 14:11 Sgoyi 阅读(185) 评论(0) 推荐(0) 编辑
摘要: redis安装部署 下载:wget http://download.redis.io/releases/redis-3.2.10.tar.gz 解压:上传至/usr/localtar xzf redis-3.2.10.tar.gzmv redis-3.2.10 redis 安装:cd redisma 阅读全文
posted @ 2018-08-02 20:52 Sgoyi 阅读(161) 评论(0) 推荐(0) 编辑
摘要: Docker 架构 Docker 使用客户端-服务器 (C/S) 架构模式,使用远程API来管理和创建Docker容器。 Docker 容器通过 Docker 镜像来创建。 容器与镜像的关系类似于面向对象编程中的对象与类。 Docker 镜像(Images) Docker 镜像是用于创建 Docke 阅读全文
posted @ 2018-08-02 15:23 Sgoyi 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 用Docker的logo来解释,鲸鱼和集装箱 用Docker的logo来解释,鲸鱼和集装箱 那个大鲸鱼(或者是货轮)就是操作系统把要交付的应用程序看成是各种货物,原本要将各种各样形状、尺寸不同的货物放到大鲸鱼上,你得为每件货物考虑怎么安放(就是应用程序配套的环境),还得考虑货物和货物是否能叠起来(应 阅读全文
posted @ 2018-08-02 14:53 Sgoyi 阅读(278) 评论(0) 推荐(0) 编辑