文章分类 - Python爬虫
摘要:一、网络库urlib 1. urllib简介 1.1 urllib是Python3中内置的HTTP请求库。 1.2 包含4个模块: 1 )requests:最基本的HTTP请求模块。 2 )error: 异常处理模块。 3 )parse: 工具模块。 4 )robotparser:主要用来识别网站的
阅读全文
摘要:一、爬虫的基本流程 1. 发起请求:通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应。 2. 获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json
阅读全文