摘要:
写在前面 这么快就到最后一次作业了,我不应该就此放下心爱的 bs4 re selenium 和不心爱的 scrapy,后面我想应该得重拾为了帮好朋友爬网易云做词云而去学 selenium 的学习热情继续加深爬虫技能吧! 学习历程主要就是作业的三大部分:从 bs4 + re > scrapy + xp 阅读全文
摘要:
写在前面 这次的作业是比较有挑战性而且比较实用的,mooc 的那次作业很考验对 selenium 一些操作的熟悉程度,有很多坑要自己走过才会知道。但是打完这些项目之后会发现 selenium 这种自动化测试工具是永远的神。一个月前:bs4 + re 不香吗,xpath 什么玩意... 现在:sele 阅读全文
摘要:
写在前面 由于电脑内存不太够所以用之前下载好的 SQL SERVER 而不用 MYSQL ,如果使用 MYSQL 需要安装的第三方库是 pymysql,而 SQL SERVER 则是 pymssql,二者使用方法大同小异,现在进入正题。 作业一 就先理解一哈源代码,发现还是熟悉的创造 Field , 阅读全文
摘要:
写在前面 本次作业是关于多线程对于爬虫的运用以及采用 scrapy 框架来编写爬虫,先写个小插曲。之前做软工作业的时候发现 python 的多线程是个鸡肋,因为在加了 GIL 锁的 python,多线程和单线程几乎无差别,甚至多线程可能更慢。但是周三用多线程测试之后颠覆了我的观点,搜完之后就摒弃对 阅读全文
摘要:
第一题 作业思路: 步骤一:看懂网页源码 步骤二:用 css 语法把需要的数据提出来 步骤三:存入数据库 运行结果: 相关代码: from bs4 import BeautifulSoup import urllib import requests import sqlite3 from bs4 i 阅读全文
摘要:
第一次作业 作业分析 第一次作业是爬取大学的排名,依旧是老办法打开 F12,那么可以发现每个大学信息和排名的位置都位于 td 标签内,再寻找一下他们的父标签是 tbody ,那么思路很清晰直接调用 bs4 库配上属性值找到包含大学排名信息的 tbody 标签,调用 children 方法并且在子标签 阅读全文