会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Magiclala的博客
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
25
下一页
2024年1月25日
Python web crawler(2.1)多循环嵌套练习
摘要: 写个函数,传入(书名:book,标题:tittle,内容:content),要求在book文件夹下(不存在则创建),创建每个tittle.txt文件,写入content内容 import os def save_to_file(folder_book, title, content): # 如果文件
阅读全文
posted @ 2024-01-25 18:45 Magiclala
阅读(44)
评论(0)
推荐(0)
2024年1月23日
requests模块和网站的请求(get、post请求)
摘要: requests模块 发送get请求,一般拥有2种方式 一种是直接拼凑URL,直接发送最终的URL,不需要传参逻辑 另一种是使用params传参逻辑,用最正统的get请求方式 1、直接发送get请求,不使用params传入参数 response = requests.get(url, headers
阅读全文
posted @ 2024-01-23 17:17 Magiclala
阅读(1094)
评论(0)
推荐(0)
2024年1月22日
Python web crawler(5)多页网站拼接
摘要: 先搞单页网站: import requests from lxml import etree import re url = 'https://*********.com/top250?start=1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows
阅读全文
posted @ 2024-01-22 18:57 Magiclala
阅读(81)
评论(0)
推荐(0)
xpath 一键去除前后空白、回车、换行
摘要: 使用xpath方式,打印结果,经常出现大量换行、空格等情况 示例如下: from lxml import etree # data = etree.parse('./素材/示例网站.html') parser = etree.HTMLParser(encoding="utf-8") # 出现读取错误
阅读全文
posted @ 2024-01-22 18:15 Magiclala
阅读(1478)
评论(0)
推荐(0)
Python web crawler(4)图片的下载(单线程)
摘要: 下载图片(单线程) import os.path import requests # 异步加载数据的接口 url = '************************************.com' headers = { 'User-Agent': '*********************
阅读全文
posted @ 2024-01-22 17:21 Magiclala
阅读(40)
评论(0)
推荐(0)
Python web crawler(3)json异步加载的格式
摘要: 异步加载的特点 点击“查看更多”等按钮,浏览器“刷新”按钮无反馈效果。 查看浏览器点击F12的“DevTools”开发者工具,点选“网络”——“Fetch/XHR”——每点击一次“加载更多”就会出现一次网络请求 点击刷新出来的“请求内容”——点击“响应”,可以看到响应的是“字典” 点击标头,查看请求
阅读全文
posted @ 2024-01-22 15:51 Magiclala
阅读(43)
评论(0)
推荐(0)
Python web crawler(2)网页同步加载的请求格式(Xpath方式)
摘要: 网页同步加载的特点: 所见即所得:浏览器渲染后的展示字段,和“响应”页面中的“数据内容”、包括右键“查看源码”中完全一致。 同步请求的一般格式 import requests from lxml import etree # 同步加载的网站 url = '' headers = { 'User-Ag
阅读全文
posted @ 2024-01-22 15:36 Magiclala
阅读(79)
评论(0)
推荐(0)
2024年1月4日
python从tr、td中拿文字并存入csv
摘要: 这是标准的tr 、td格式 <table> <tr> <td>第一行第1列</td> <td>第一行第2列</td> <td>第一行第3列</td> </tr> <tr> <td>第二行第1列</td> <td>第二行第2列</td> <td>第二行第3列</td> </tr> <tr> <td>第
阅读全文
posted @ 2024-01-04 21:14 Magiclala
阅读(255)
评论(0)
推荐(0)
Python web crawler(1)基本用法格式
摘要: 用with读取文件 # './素材/匹配天气.html'是文件路径,'r'表示读取模式,encoding='UTF-8'指定编码为UTF-8 with open('../素材/匹配天气.html', 'r', encoding='utf-8') as file: # 读取文件内容并将其保存在变量da
阅读全文
posted @ 2024-01-04 13:50 Magiclala
阅读(92)
评论(0)
推荐(0)
2023年12月27日
编译安装openssl-1.1.1和openssh-9.4
摘要: 1、安装 openssl-1.1.1 先处理下opensll的版本,以免编译安装Openssh环境异常: yum remove openssl cd /opt wget https://www.openssl.org/source/openssl-1.1.1n.tar.gz tar -zxvf op
阅读全文
posted @ 2023-12-27 15:41 Magiclala
阅读(5863)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
25
下一页
公告