摘要:
使用 pyquery 若对 Web 有所涉及,比较喜欢用 CSS 选择器,对 jQuery 有所了解,可以使用解析库 ——pyquery。 准备工作 安装 pyquery库 pip3 install pyquery 初始化 像 Beautiful Soup 一样,初始化 pyquery 的时候,也需 阅读全文
摘要:
正则表达式比较烦琐,万一有地方写错了,可能导致匹配失败,所以使用正则表达式提取页面信息多多少少还是有些不方便。 对于网页的节点来说,它可以定义 id、class 或其他属性。而且节点之间还有层次关系,在网页中可以通过 XPath 或 CSS 选择器来定位一个或多个节点。那么,在页面解析时,利用 XP 阅读全文
摘要:
准备工作 Python3,3.6以上的版本 了解Python多进程的基本原理 了解PythonHTTp请求库requests的基本用法 了解正则表达式的用法和正则表达式re的基本用法 爬取目标 静态网站案例,包含一些电影信息。 电影详情页 需完成的目标: requests爬取站点的每一页电影列表,顺 阅读全文
摘要:
urllib和requests库已经可以爬取大多数网站的数据,但对于一些强制使用HTTP/2.0协议访问,这时urllib和requests是无法爬取数据的,因为只支持HTTP/1.1,不支持HTTP/2.0。可以使用一些支持HTTP/2.0的请求库,比较有代表性的是hyper和httpx,后者用起 阅读全文
摘要:
常用的匹配规则 匹配规则 描述 示例 . 匹配除换行符以外的任何单个字符 a.b 匹配 aab, a0b, a*b ^ 匹配字符串的开始 ^abc 匹配 abcdef 中的 abc $ 匹配字符串的结尾 abc$ 匹配 123abc 中的 abc * 匹配前面的字符 0 次或多次 ab*c 匹配 a 阅读全文
摘要:
准备工作 安装request库 pip install request 实例引入 get方法实现GET请求,返回一个Response对象,存放在变量r中,分别输出响应的类型、状态码、响应体的类型、内容以及cookie import requests r = requests.get('http:// 阅读全文