偶尔一次的记录
关于python考核的第一次作业
GITHUB HERE
任务耗时----一整天
我做了什么?
- 爬取了指定题目集的题目名字和题目编号
- 了解了网页异步加载可能会对爬取数据造成的影响
- 了解了但没有使用如何绕过图形验证码的方法
- 安装了MySQL数据库和Navicat for MySQL数据库管理软件
- 加深了对request库了理解
- 抛弃了“美丽的汤”
我遇到的问题
- 网页的异步加载导致的空数据爬取
解决方法:查找目标json数据的request url作为处理对象
- 爬取的数据出现乱码
解决方法:
网上的:encoding格式声明为‘utf-8'
我遇到的另一个问题:声明格式后返回数据仍是乱码,且中文输出正常,怀疑是response数据处理不当导致。
补:好像需要请求头加一个accept
我最后采取的解决方法:通过正则表达式提取本次需要的字符。
- 链接数据库时发生错误“cryptography is required for sha256_password or caching_sh”
解决方法:pip安装cryptography
总结和一些感受
刚开始以为经过寒假作业的洗礼应该能很轻松的完成本次任务,可是异步加载、乱码等问题层出不穷,小问题更是一个跟着一个。哭了
接下来的时间里要加快相关知识的学习并合理安排时间,希望有一天完成任务能不依赖百度、博客、csdn等的帮助,自己找到debug的方法,最好是写不出bug。
最后的成果
爬取的目标
爬取的结果
接下来要做的事
- 学html
- 学MySQL
- 学c++
- 提高绩点