JJJhr - 博客园

2024年5月24日

摘要：使用 pyquery 若对 Web 有所涉及，比较喜欢用 CSS 选择器，对 jQuery 有所了解，可以使用解析库 ——pyquery。准备工作安装 pyquery库 pip3 install pyquery 初始化像 Beautiful Soup 一样，初始化 pyquery 的时候，也需阅读全文

posted @ 2024-05-24 16:06 JJJhr 阅读(49) 评论(0) 推荐(0) 编辑

XPath的使用

摘要：正则表达式比较烦琐，万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息多多少少还是有些不方便。对于网页的节点来说，它可以定义 id、class 或其他属性。而且节点之间还有层次关系，在网页中可以通过 XPath 或 CSS 选择器来定位一个或多个节点。那么，在页面解析时，利用 XP 阅读全文

posted @ 2024-05-24 16:05 JJJhr 阅读(19) 评论(0) 推荐(0) 编辑

基础爬虫案例实战

摘要：准备工作 Python3，3.6以上的版本了解Python多进程的基本原理了解PythonHTTp请求库requests的基本用法了解正则表达式的用法和正则表达式re的基本用法爬取目标静态网站案例，包含一些电影信息。电影详情页需完成的目标： requests爬取站点的每一页电影列表，顺阅读全文

posted @ 2024-05-24 02:11 JJJhr 阅读(7) 评论(0) 推荐(0) 编辑

httpx的使用

摘要： urllib和requests库已经可以爬取大多数网站的数据，但对于一些强制使用HTTP/2.0协议访问，这时urllib和requests是无法爬取数据的，因为只支持HTTP/1.1，不支持HTTP/2.0。可以使用一些支持HTTP/2.0的请求库，比较有代表性的是hyper和httpx，后者用起阅读全文

posted @ 2024-05-24 01:47 JJJhr 阅读(331) 评论(0) 推荐(0) 编辑

正则表达式

摘要：常用的匹配规则匹配规则描述示例 . 匹配除换行符以外的任何单个字符 a.b 匹配 aab, a0b, a*b ^ 匹配字符串的开始 ^abc 匹配 abcdef 中的 abc $ 匹配字符串的结尾 abc$ 匹配 123abc 中的 abc * 匹配前面的字符 0 次或多次 ab*c 匹配 a 阅读全文

posted @ 2024-05-24 01:44 JJJhr 阅读(24) 评论(0) 推荐(0) 编辑

requests的使用

摘要：准备工作安装request库 pip install request 实例引入 get方法实现GET请求，返回一个Response对象，存放在变量r中，分别输出响应的类型、状态码、响应体的类型、内容以及cookie import requests r = requests.get('http:// 阅读全文

posted @ 2024-05-24 01:42 JJJhr 阅读(8) 评论(0) 推荐(0) 编辑

2024年5月23日

urllib的使用

摘要： urllib的使用 urllib是Python内置的用于处理URL操作的模块。它提供了很多功能，包括访问和处理URL内容、解析URL等。 1. 安装 urllib urllib是Python标准库的一部分，因此无需单独安装。Python2分为urllib和urllib2，Python3合并为urll 阅读全文

posted @ 2024-05-23 00:37 JJJhr 阅读(114) 评论(0) 推荐(0) 编辑

2024年5月21日

向Web服务器端上传文件

摘要： server.py import flaskapp = flask.Flask(__name__)@app.route('/upload', methods=['POST'])def uploadFile(): msg = "" try: if "fileName" in flask.request 阅读全文

posted @ 2024-05-21 23:26 JJJhr 阅读(8) 评论(0) 推荐(0) 编辑

2024年5月19日

re.search()用法详解

摘要： re.search() 是 Python 的正则表达式库 re 中的一个方法，用于在字符串中搜索与正则表达式模式匹配的第一个位置，并返回一个匹配对象。如果没有找到匹配项，则返回 None。以下是 re.search() 的基本用法和详解：基本语法 import re match = re.sea 阅读全文

posted @ 2024-05-19 01:38 JJJhr 阅读(2101) 评论(0) 推荐(0) 编辑

向web服务器下载文件

摘要： web服务器向客户端发送文件 Web服务器读取一个文件的二进制数据，把这组二进制数据发送个客户端，服务器发送给客户端的HTML文档的本质也是二进制。客户端使用以下代码读文件 response = urllib.request.urlopen(url + "?" + urllib.parse.quot 阅读全文

posted @ 2024-05-19 00:58 JJJhr 阅读(13) 评论(0) 推荐(0) 编辑

JJJhr'blog

公告