摘要: Markdown: 阅读全文
posted @ 2019-07-01 17:38 springionic 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了 遍历发送请求获取响应 提取数据,这里用的是xpath提取,用的是Python的第三方模块lxml 保存数据到本地 爬取的数据有:段子内容、作者性别、作者年龄、作者头像的地址、被标记为好 阅读全文
posted @ 2019-07-01 17:04 springionic 阅读(415) 评论(0) 推荐(0) 编辑