摘要: 之前写脚本爬斗鱼主播信息时用了一个pymongo的去重语句 这句话以主播和时间为索引判断数据库中如果没有同一主播同一时间的数据就更新到数据库。一开始还是很好用的,爬取速度还可以,但是我的计划是每天晚上爬取黄金时间整点段的数据,几个小时过后数据量就达到了十几万条,然后速度越来越慢,mongodb进程占 阅读全文
posted @ 2018-12-30 23:46 放脚一搏 阅读(1752) 评论(0) 推荐(0) 编辑