偶尔一次的记录

关于python考核的第一次作业

GITHUB HERE

Here to my github

任务耗时----一整天

我做了什么?
  • 爬取了指定题目集的题目名字和题目编号
  • 了解了网页异步加载可能会对爬取数据造成的影响
  • 了解了但没有使用如何绕过图形验证码的方法
  • 安装了MySQL数据库和Navicat for MySQL数据库管理软件
  • 加深了对request库了理解
  • 抛弃了“美丽的汤”

我遇到的问题

  1. 网页的异步加载导致的空数据爬取

解决方法:查找目标json数据的request url作为处理对象

  1. 爬取的数据出现乱码

解决方法:

​ 网上的:encoding格式声明为‘utf-8'

​ 我遇到的另一个问题:声明格式后返回数据仍是乱码,且中文输出正常,怀疑是response数据处理不当导致。
补:好像需要请求头加一个accept
​ 我最后采取的解决方法:通过正则表达式提取本次需要的字符。

  1. 链接数据库时发生错误“cryptography is required for sha256_password or caching_sh”

解决方法:pip安装cryptography

总结和一些感受

​ 刚开始以为经过寒假作业的洗礼应该能很轻松的完成本次任务,可是异步加载、乱码等问题层出不穷,小问题更是一个跟着一个。哭了

​ 接下来的时间里要加快相关知识的学习并合理安排时间,希望有一天完成任务能不依赖百度、博客、csdn等的帮助,自己找到debug的方法,最好是写不出bug。

最后的成果

爬取的目标

爬取的结果

接下来要做的事

  1. 学html
  2. 学MySQL
  3. 学c++
  4. 提高绩点
posted @ 2021-03-17 20:39  Xuuxxi  阅读(46)  评论(0编辑  收藏  举报