摘要: 黑板课爬虫闯关第三关,每次登录之前,先要请求网址,获取服务器发的 cookie 中的 csrftoken 作为下次登录时的 csrfmiddlewaretoken 参数的值和用户名密码一起传给服务器。 阅读全文
posted @ 2018-09-15 15:21 丹枫无迹 阅读(887) 评论(0) 推荐(0) 编辑
摘要: 第二关依然是非常的简单 地址:http://www.heibanke.com/lesson/crawler_ex01/ 随便输入昵称呢密码,点击提交,显示如下: 阅读全文
posted @ 2018-09-15 14:46 丹枫无迹 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 黑板课爬虫闯关,第一关非常的简单,get 请求网址,在响应的 html 中用正则获取需要在网址后面输入的数字,生成新的 url,继续请求,直到通关。 阅读全文
posted @ 2018-09-15 14:34 丹枫无迹 阅读(740) 评论(0) 推荐(0) 编辑
摘要: 正则大同小异,python 中的正则跟其他语言相比略有差异: 1、替换字符串时,替换的字符串可以是一个函数; 2、split 函数可以指定分割次数,这会导致有个坑; 3、前项界定的表达式必须定长,否则报 look-behind requires fixed-width pattern 错误。 阅读全文
posted @ 2018-09-15 09:18 丹枫无迹 阅读(813) 评论(0) 推荐(0) 编辑