随笔分类 - python3爬虫实战
摘要:requests库的使用 概述 requests库用于网页请求并接收返回信息,requets库的功能有: 常用请求 请求方式 GET请求 POST请求 请求携带的信息 文件上传 请求头headers 设置cookies Session维持 SSL证书验证 超时设置 身份验证 代理设置 常见响应 re
阅读全文
摘要:爬虫概述 获取网页并提取和保存信息的自动化程序 1、获取网页 urllib、requests等库 向网站的服务器发送一个请求,服务器返回网页源码 2、提取信息 分析源代码,从中提取我们需要的数据 通用方法:正则表达式 根据网页结构提取信息:Beautiful Soup、pyquery、lxml等 3
阅读全文
摘要:1.1HTTP基本原理 URI 和 URL URI:Uniform Resourse Identifier URL: Uniform Resourse Locator URL的格式 scheme://[username:password@]hostname[:port][/path][;parame
阅读全文