摘要: Python3微博爬虫[requests+pyquery+selenium+mongodb] 大数据时代,数据的获取对是研究的基础,而获取海量的数据自然不能通过人工获取,爬虫因运而生。微博作为新时代国内火爆的社交媒体平台,拥有大量用户行为和商户数据,学会通过爬虫获取所需数据将是将来研究学者的必备技能 阅读全文
posted @ 2019-09-10 16:09 yhsmer 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 深圳杯D题爬取电视收视率排行榜 [TOC] 站点分析 http://www.tvtv.hk/archives/category/tv 每天的排行版通过静态页面发布,先获取每天的排行榜链接,再进一步从链接里面获取数据 每天前10的信息发布在p标签内,存储的时候空格拆分一下 代码实现 获取每一页的静态链 阅读全文
posted @ 2019-09-10 10:04 yhsmer 阅读(225) 评论(0) 推荐(0) 编辑