随笔档案「2019年7月1日」：实现爬虫的一般思路 ... - springionic

2019年7月1日

摘要： Markdown：阅读全文

posted @ 2019-07-01 17:38 springionic 阅读(314) 评论(0) 推荐(0)

摘要：和之前的爬虫类博客的爬取思路基本一致：构造url_list，因为糗事百科的热门栏目默认是13页，所以这个就简单了遍历发送请求获取响应提取数据，这里用的是xpath提取，用的是Python的第三方模块lxml 保存数据到本地爬取的数据有：段子内容、作者性别、作者年龄、作者头像的地址、被标记为好阅读全文

posted @ 2019-07-01 17:04 springionic 阅读(451) 评论(0) 推荐(0)

springionic

公告