摘要: 什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparse robots.txt解析模块 阅读全文
posted @ 2019-05-19 23:03 逆欢 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫? 请求网站并提取数据的自动化程序 爬虫基本流程 1.发起请求,通过HTTP库向目标站点发起请求,即发送一个Request,请求包含额外的headers信息 2.获取响应内容,如果服务器正常相应,得到一个Response 3.解析内容,得到的内容可能是HTML,JSON,二进制数,可以保存 阅读全文
posted @ 2019-05-19 22:48 逆欢 阅读(180) 评论(0) 推荐(0) 编辑