摘要: (一)简介 Urllib库是Python内置的HTTP请求库包括四个函数方法 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 接下里,我们以代码的形式看看如何 阅读全文
posted @ 2018-09-23 22:56 A-handsome-cxy 阅读(620) 评论(0) 推荐(0) 编辑
摘要: (一)简介 今天,我们将对爬虫的基础知识做一个基本的梳理,以便大家掌握爬虫的基本思路,爬虫即为网络资源数据获取,用一句话概括就是: 请求网站并提取数据的自动化程序 爬虫的基本流程分为四步: 在第一二步Request和Response是爬虫的获取阶段比较重要的两个概念,我们来仔细看一下: (二)Req 阅读全文
posted @ 2018-09-23 09:35 A-handsome-cxy 阅读(695) 评论(0) 推荐(0) 编辑