摘要: 接上一篇的,发现爬斗鱼主播信息存入Mongodb数据库后,发现很多重复的数据,毕竟斗鱼不可能有这么多的主播,所以很多页是有重复的主播房间的。 查了一下怎么去重,发现比较麻烦,与其存入重复的数据后面再去重,还不如在存入数据库的时候就检查,不去存入重复的数据,这样就避免了后期再去做去重工作。于是改动如下 阅读全文
posted @ 2018-10-25 11:52 放脚一搏 阅读(6338) 评论(0) 推荐(1) 编辑
摘要: 先看代码 执行后只爬了两页就报错误: 这样的错误是说我已经点击了翻页,但是还没有完成翻页,于是又爬了一次当前页,然后再要执行翻页时页面已经刷新了,前面找到的翻页元素已经过期了,无法执行点击。 当然最有效的方法是在点击翻页后强制sleep几秒,但是这样会浪费时间,而且太low了。于是我加了等待当前页为 阅读全文
posted @ 2018-10-25 01:09 放脚一搏 阅读(26129) 评论(1) 推荐(4) 编辑