PoeticalJustice

导航

2018年9月7日 #

week07 13.3 NewsPipeline之 三News Deduper之 tf_idf 查重

摘要: 我们运行看结果 安装包sklearn 安装numpy 安装scipy 终于可以啦 我们把安装的包都写在文件里面吧 4行4列 轴对称 只需要看一半就可以 横着看 竖着看都行 数值越接近1 表示越相似 我们通过这个可以将新的新闻(还未加入数据库的新闻)放在左上角 然后mongodb存的老新闻和他比较 如 阅读全文

posted @ 2018-09-07 15:00 PoeticalJustice 阅读(233) 评论(0) 推荐(0) 编辑

week07 13.4 NewsPipeline之 三 News Deduper

摘要: 还是循环将Q2中的东西拿出来 然后查重(去mongodb里面把一天之内的新闻都拿出来,然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比)可看13.3 相似度检查 如果超过一定的值 我就认为他是一个老的新闻 丢掉 不插入数据库 吐过相似度低于那个值 我们就认为他是新的新闻 阅读全文

posted @ 2018-09-07 14:32 PoeticalJustice 阅读(265) 评论(0) 推荐(0) 编辑

week07 13.2 NewsPipeline之 二 News Fetcher - Xpath

摘要: 我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹 里面全部是 各个新闻源(CNN BBC等)的scraper来抓取网站的text内容 主要函数(就是传入text内容的那个url)然后进行抓取内容 返回 news 一会写具体内容 这个函数主要做3件事 首先 download 这个ur 阅读全文

posted @ 2018-09-07 14:26 PoeticalJustice 阅读(165) 评论(0) 推荐(0) 编辑