摘要: 1、问题描述: 爬取豆瓣读书首页的图书的名称、链接、作者、出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2、思路分析: 发送请求 获取数据 解析数据 存储数据 1、目标网址:https://book.douban.com/ 2、利用requests.get()方法向豆瓣读 阅读全文
posted @ 2018-11-04 15:23 喜喜睡吧 阅读(1267) 评论(0) 推荐(0) 编辑
摘要: 1、re.match(pattern, str, flag) 从str的第一个字母开始匹配,若不是开头的,尽管属于str内,则无法匹配。 2、贪婪匹配与非贪婪匹配(?) 3、re.search() 扫描整个字符串并返回 第一个 成功的 4、re.sub() 替换字符串 5、re.compile()是 阅读全文
posted @ 2018-11-04 15:09 喜喜睡吧 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 1、get请求: get(url, params, headers) 2、json 解析 3、content 获取二进制内容 4、headers 添加 5、post请求:post(url,data,headers) 6、files 文件上传 7、cookie 获取 8、session 会话维持 模拟 阅读全文
posted @ 2018-11-04 14:38 喜喜睡吧 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 1、四个模块: request error parse robotparser 2、urlopen(url, data, timeout) 发送请求 get请求无data; post请求有data 3、read() 获取响应体的内容 4、Handler 代理IP 5、cookie 维持登录状态 6、 阅读全文
posted @ 2018-11-04 14:26 喜喜睡吧 阅读(693) 评论(0) 推荐(0) 编辑