随笔分类 -  Python

摘要:## 1、前言 最初我写过一篇相同的文章发表到了CSDN中,因为写的比较早,2019年吧,8万多访问量,所以后来也有很多网友反馈各种问题,包括网站反爬、数据爬取失败、网络异常等等,所以那篇文章也经过了多次的修改。 不过目前因为CSDN规则更改,爬虫类文章因违反社区规定被下架了,然后我也很久没有去管了 阅读全文
posted @ 2023-06-19 11:15 h云淡风轻 阅读(1263) 评论(8) 推荐(0) 编辑
摘要:```python import urllib.parse item = input("请输入字符串:") result = urllib.parse.quote(item) print(result) ``` ![](https://img2023.cnblogs.com/blog/2430497 阅读全文
posted @ 2023-06-15 17:23 h云淡风轻 阅读(44) 评论(0) 推荐(0) 编辑
摘要:## 1、前言 Selenium是一个自动化测试工具,也可以用于Web爬取。它可以控制浏览器并模拟人类操作,从而避免被反爬虫检测。 ## 2、环境准备 ### 2.1、安装selenium库 可以直接通过命令安装 ```shell pip install selenium ``` 或者使用IDE安装 阅读全文
posted @ 2023-06-15 16:58 h云淡风轻 阅读(3219) 评论(1) 推荐(0) 编辑
摘要:## 1、Ajax介绍 AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。 所以你会发现网站在翻页时url不变的 ## 2、普通网页 我们以起点小说中文网为例,找到推荐 阅读全文
posted @ 2023-06-15 15:38 h云淡风轻 阅读(492) 评论(0) 推荐(0) 编辑
摘要:我们都知道在爬取网页信息时很容易遭到网站的封禁,这时我们就要用到代理IP 以下是模拟浏览器访问网页的代码 在自定义函getHtml()中可以得到解析后的网页信息 _headers = { 'Accept':'text/html,application/xhtml+xml,application/xm 阅读全文
posted @ 2023-04-19 14:42 h云淡风轻 阅读(23) 评论(0) 推荐(0) 编辑
摘要:文章目录 导包模拟浏览器登录参数一:单线程爬取1.生成网页列表2.爬取图片的网址3.下载图片到本地 二:多线程下载图片0.加锁1.获取图片网址2.下载图片3.函数调用4.问题 完整代码 导包 import re import os import urllib.request import threa 阅读全文
posted @ 2023-04-12 10:55 h云淡风轻 阅读(116) 评论(0) 推荐(0) 编辑
摘要:模拟银行业务 print("*********************************************") print("* 1.开户 2.查询 *") print("* 3.存款 4.取款 *") print("* 5.转账 6.改密 *") print("* 7.锁卡 8.解卡 阅读全文
posted @ 2022-10-24 10:23 h云淡风轻 阅读(21) 评论(0) 推荐(0) 编辑
摘要:Python图形化界面设计 窗体控件布局 #coding:utf-8 from tkinter import * root= Tk() root.title('我的第一个Python窗体') root.geometry('240x240') # 这里的乘号不是 * ,而是小写英文字母 x root. 阅读全文
posted @ 2021-12-24 14:47 h云淡风轻 阅读(42) 评论(0) 推荐(0) 编辑
摘要:#coding:utf-8 import re #re是正则表达式模块 def main(): str = input("请输入字符串:") chinese = re.findall('[\u4e00-\u9fa5]', str) # 汉字的范围为"\u4e00-\u9fa5" print(chin 阅读全文
posted @ 2021-12-20 14:51 h云淡风轻 阅读(28) 评论(0) 推荐(0) 编辑
摘要:python + 高德地图API实现地图找房 项目简介:根据工作地点信息和58同城爬取的租房信息,通过高德地图进行显示,同时利用高德API自动规划房源到工作地点的通勤路线(公交+地铁) 项目仓库:https://github.com/haohaizhi/58house_spiders 一、数据爬取 阅读全文
posted @ 2021-09-30 17:04 h云淡风轻 阅读(150) 评论(0) 推荐(0) 编辑
摘要:该实例实现ARP反向代理 #coding:utf-8 from scapy.all import * import threading import random proxy_mac = "00:0c:29:93:19:97" #代理MAC地址 net_list = ["vethd5d1611"," 阅读全文
posted @ 2021-05-11 18:04 h云淡风轻 阅读(11) 评论(0) 推荐(0) 编辑
摘要:很多时候,Python爬取的文件都是写在TXT文本里,不过当要提取出来进行数据分析时无法按行输入, 我在网上百度的方法不知道为啥有点不是我想要的结果,于是我换成另一种方式。 那就是先转成列表 方法一: # -*- coding:utf-8 -*- f = open(r'ip.txt','r') a 阅读全文
posted @ 2019-06-08 23:26 h云淡风轻 阅读(19) 评论(0) 推荐(0) 编辑
摘要:学了爬虫之后,我一直在纠结一个问题,那就是decode与encode 在这我也分享一下我的见解 首先我们都知道不同网页的编码格式是不一样的 查询方法如下: 当我们知道编码格式后就可以解析网页并转换格式 代码是这样的 url = " 网 址 " a = urllib.request.urlopen(u 阅读全文
posted @ 2019-06-04 13:47 h云淡风轻 阅读(69) 评论(0) 推荐(0) 编辑
摘要:爬取网页的方式:re url="https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,1.html" a = urllib.request.ur 阅读全文
posted @ 2019-06-03 12:33 h云淡风轻 阅读(21) 评论(0) 推荐(0) 编辑

喜欢请打赏

扫描二维码打赏

微信打赏

点击右上角即可分享
微信分享提示