摘要: urllib的详解使用 Urllib 库是 Python 内置的 HTTP 请求库,urllib 模块提供的上层接口,使访问 www 和 ftp 上的数据就像访问本地文件一样,并且它也是requests的底层库。它包含四个模块: urllib.request:请求模块。 urllib.error:异 阅读全文
posted @ 2022-05-16 22:33 LuckinAaron 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 爬虫的基本原理 爬虫概述 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。 可以将爬虫总结为4个步骤: 1.获取网页 爬虫首先要做的工作就是获取网页,也就是获取网页的源代码,源代码包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息。 根据请求和响应的概念,向网站的服 阅读全文
posted @ 2022-05-16 20:59 LuckinAaron 阅读(49) 评论(0) 推荐(0) 编辑