摘要: 开始我学习爬虫的目标 > 煎蛋网 通过设置User-Agent获取网页,发现本该是图片链接的地方被一个js函数代替了 于是全局搜索到该函数 function jandan_load_img(b){ var d = $(b); var f = d.next("span.img-hash"); var 阅读全文
posted @ 2018-04-22 17:41 写蛋炒饭的Bug 阅读(664) 评论(0) 推荐(0) 编辑
摘要: 目标,豆瓣读书, 下载页面书籍图片。 又做了点修改,并将书名写入txt文件中 阅读全文
posted @ 2018-04-22 17:09 写蛋炒饭的Bug 阅读(1083) 评论(0) 推荐(0) 编辑
摘要: 有的网页在爬取时候会报错返回 urllib.error.HTTPError: HTTP Error 403: Forbidden 这是网址在检测连接对象,所以需要伪装浏览器,设置User Agent 在浏览器打开网页 > F12 > Network > 刷新 然后选择一项 就是在 header 看到 阅读全文
posted @ 2018-04-22 14:47 写蛋炒饭的Bug 阅读(1540) 评论(0) 推荐(0) 编辑
摘要: 此为记录下我自己的爬虫学习过程。 利用url包抓取网页 urllib.request模块用来打开和读取url 字符常用的几个编码方式: ASCII编码:用来表示英文,它使用1个字节表示,其中第一位规定为0,其他7位存储数据,一共可以表示128个字符。拓展ASCII编码:用于表示更多的欧洲文字,用8个 阅读全文
posted @ 2018-04-22 12:01 写蛋炒饭的Bug 阅读(999) 评论(0) 推荐(0) 编辑