2018 年 9月 7 日随笔档案 - PoeticalJustice

week07 13.3 NewsPipeline之三News Deduper之 tf_idf 查重

摘要：我们运行看结果安装包sklearn 安装numpy 安装scipy 终于可以啦我们把安装的包都写在文件里面吧 4行4列轴对称只需要看一半就可以横着看竖着看都行数值越接近1 表示越相似我们通过这个可以将新的新闻（还未加入数据库的新闻）放在左上角然后mongodb存的老新闻和他比较如阅读全文

posted @ 2018-09-07 15:00 PoeticalJustice 阅读(234) 评论(0) 推荐(0) 编辑

week07 13.4 NewsPipeline之三 News Deduper

摘要：还是循环将Q2中的东西拿出来然后查重（去mongodb里面把一天之内的新闻都拿出来，然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比）可看13.3 相似度检查如果超过一定的值我就认为他是一个老的新闻丢掉不插入数据库吐过相似度低于那个值我们就认为他是新的新闻阅读全文

posted @ 2018-09-07 14:32 PoeticalJustice 阅读(268) 评论(0) 推荐(0) 编辑

week07 13.2 NewsPipeline之二 News Fetcher - Xpath

摘要：我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹里面全部是各个新闻源（CNN BBC等）的scraper来抓取网站的text内容主要函数（就是传入text内容的那个url）然后进行抓取内容返回 news 一会写具体内容这个函数主要做3件事首先 download 这个ur 阅读全文

posted @ 2018-09-07 14:26 PoeticalJustice 阅读(166) 评论(0) 推荐(0) 编辑

PoeticalJustice

导航

公告

week07 13.3 NewsPipeline之三News Deduper之 tf_idf 查重

week07 13.4 NewsPipeline之三 News Deduper

week07 13.2 NewsPipeline之二 News Fetcher - Xpath

PoeticalJustice

导航

公告

week07 13.3 NewsPipeline之 三News Deduper之 tf_idf 查重

week07 13.4 NewsPipeline之 三 News Deduper

week07 13.2 NewsPipeline之 二 News Fetcher - Xpath

week07 13.3 NewsPipeline之三News Deduper之 tf_idf 查重

week07 13.4 NewsPipeline之三 News Deduper

week07 13.2 NewsPipeline之二 News Fetcher - Xpath