python爬虫学习之每日抓取新增微博

爬虫学习的一点心得

任务:每日新增微博指定信息抓取

抓取:requests

解析:xpath,正则表达式

存储:MongDB

遇到的问题:

1. xpath 解析时,如果有一个标签中有2个属性,2个属性之间用and相连,如果其中一个属性不一样,后面不用跟等号

      selector.xpath('//div[@class="c" and @id]')
2.将每个微博的作者和发布时间合并成一个字符,插入到redis的一个集合
cmcc_sets中,当插入成功表示,该微博为新增微博需要下载到MongoDB中,如果未插入成功,则表示该微博已经下载过,无需重复插入

 


posted @ 2019-05-21 23:25  下一站回忆  阅读(315)  评论(0编辑  收藏  举报