2024 年 1月 22 日随笔档案 - Magiclala

2024年1月22日

摘要：先搞单页网站： import requests from lxml import etree import re url = 'https://*********.com/top250?start=1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows 阅读全文

posted @ 2024-01-22 18:57 Magiclala 阅读(22) 评论(0) 推荐(0) 编辑

xpath 一键去除前后空白、回车、换行

摘要：使用xpath方式，打印结果，经常出现大量换行、空格等情况示例如下： from lxml import etree # data = etree.parse('./素材/示例网站.html') parser = etree.HTMLParser(encoding="utf-8") # 出现读取错误阅读全文

posted @ 2024-01-22 18:15 Magiclala 阅读(977) 评论(0) 推荐(0) 编辑

Python web crawler（4）图片的下载（单线程）

摘要：下载图片（单线程） import os.path import requests # 异步加载数据的接口 url = '************************************.com' headers = { 'User-Agent': '********************* 阅读全文

posted @ 2024-01-22 17:21 Magiclala 阅读(6) 评论(0) 推荐(0) 编辑

Python web crawler（3）json异步加载的格式

摘要：异步加载的特点点击“查看更多”等按钮，浏览器“刷新”按钮无反馈效果。查看浏览器点击F12的“DevTools”开发者工具，点选“网络”——“Fetch/XHR”——每点击一次“加载更多”就会出现一次网络请求点击刷新出来的“请求内容”——点击“响应”，可以看到响应的是“字典” 点击标头，查看请求阅读全文

posted @ 2024-01-22 15:51 Magiclala 阅读(8) 评论(0) 推荐(0) 编辑

Python web crawler（2）网页同步加载的请求格式（Xpath方式）

摘要：网页同步加载的特点：所见即所得：浏览器渲染后的展示字段，和“响应”页面中的“数据内容”、包括右键“查看源码”中完全一致。同步请求的一般格式 import requests from lxml import etree # 同步加载的网站 url = '' headers = { 'User-Ag 阅读全文

posted @ 2024-01-22 15:36 Magiclala 阅读(25) 评论(0) 推荐(0) 编辑

Magiclala的博客

公告