随笔分类 - Python3网络爬虫 / 02.基本库的使用

基础爬虫案例实战

摘要：准备工作 Python3，3.6以上的版本了解Python多进程的基本原理了解PythonHTTp请求库requests的基本用法了解正则表达式的用法和正则表达式re的基本用法爬取目标静态网站案例，包含一些电影信息。电影详情页需完成的目标： requests爬取站点的每一页电影列表，顺阅读全文

posted @ 2024-05-24 02:11 JJJhr 阅读(11) 评论(0) 推荐(0) 编辑

httpx的使用

摘要：urllib和requests库已经可以爬取大多数网站的数据，但对于一些强制使用HTTP/2.0协议访问，这时urllib和requests是无法爬取数据的，因为只支持HTTP/1.1，不支持HTTP/2.0。可以使用一些支持HTTP/2.0的请求库，比较有代表性的是hyper和httpx，后者用起阅读全文

posted @ 2024-05-24 01:47 JJJhr 阅读(553) 评论(0) 推荐(0) 编辑

requests的使用

摘要：准备工作安装request库 pip install request 实例引入 get方法实现GET请求，返回一个Response对象，存放在变量r中，分别输出响应的类型、状态码、响应体的类型、内容以及cookie import requests r = requests.get('http:// 阅读全文

posted @ 2024-05-24 01:42 JJJhr 阅读(16) 评论(0) 推荐(0) 编辑

urllib的使用

摘要：urllib的使用 urllib是Python内置的用于处理URL操作的模块。它提供了很多功能，包括访问和处理URL内容、解析URL等。 1. 安装 urllib urllib是Python标准库的一部分，因此无需单独安装。Python2分为urllib和urllib2，Python3合并为urll 阅读全文

posted @ 2024-05-23 00:37 JJJhr 阅读(182) 评论(0) 推荐(0) 编辑

公告

昵称： JJJhr
园龄： 4年11个月
粉丝： 0
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

JJJhr'blog

随笔分类 - Python3网络爬虫 / 02.基本库的使用

公告

搜索

常用链接

合集

随笔分类

随笔档案

阅读排行榜

推荐排行榜