西二Python二轮考核思考
一开始去看教程,发现所介绍的方法总是不断变得高级,于是在一番考量后选择使用pyque
爬取教务处:
使用虚拟登录进入教务处网站,在获取课程表那一页的html后,尝试使用pyque去寻找课程名的节点,然后发现爬取出来的节点的信息不仅包括课程名,还包括课程表上方的一些提示信息。于是在任何把课程名信息和提示信息分开的地方卡了好久,但后来发现爬取出来的内容是存在列表中,于是就在输出的时候选择合适的节点内容输出:
i=1
for bb in b.items():
if i<3 or i>39:
i=i+1
continue
print(bb.text())
i+=1
爬取福大要闻:
获取正文、作者、日期、标题都相对简单,只有获取阅读数的时候需要使用到正则表达式。爬取过程并没有什么问题。问题主要出现在MySQL上,首先在安装MySQL的时候就发生了很多意外,缺少了一个vcruntime140_1.dll文件,修复了好久都无法正常安装,最后无奈只能手动下载文件。
在安装好MySQL后,发现一开始下载的PyCharm是社区版,找不到右侧栏的Datebase。而在setting处安装database sql的时候又一直下载失败,最后只能下载专业版。总体来说,除了MySQL这里出现了一些意外以外,其他方面都较为顺利。