爬虫 - 文章分类 - 一只大学生

selenium实战-搞定12306的登录问题

摘要：from selenium.webdriver import Chrome from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.chrome.options import O 阅读全文

posted @ 2024-12-24 11:32 一只大学生阅读(34) 评论(0) 推荐(0)

selenium实战-超级鹰干超级鹰

摘要：from selenium.webdriver import Chrome from chaojiying import Chaojiying_Client import time web = Chrome() web.get("http://www.chaojiying.com/user/logi 阅读全文

posted @ 2024-12-24 11:31 一只大学生阅读(16) 评论(0) 推荐(0)

破解验证码利器-超级鹰

摘要：网址：https://www.chaojiying.com/ 使用生成软件ID 下载代码，在自己代码中配置老师的（修改过后的） #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class C 阅读全文

posted @ 2024-12-24 11:30 一只大学生阅读(63) 评论(0) 推荐(0)

selenium

摘要：引入概述 # 能不能让我的程序连接到浏览器 . 让浏览器来完成各种复杂的操作, 我们只接受最终的结果 # selenium: 自动化测试工具 # 可以: 打开浏览器. 然后像人一样去操作浏览器 # 程序员可以从selenium中直接提取网页上的各种信息 # 环境搭建: # pip install s 阅读全文

posted @ 2024-12-24 11:28 一只大学生阅读(32) 评论(0) 推荐(0)

爬取视频

摘要：如何爬取视频 # <video src="不能播的视频.mp4"></video> # 一般的视频网站是怎么做的? # 用户上传 -> 转码(把视频做处理, 2K, 1080, 标清) -> 切片处理(把单个的文件进行拆分) 60 # 用户在进行拉动进度条的时候 # # 需要一个文件记录: 1.视频阅读全文

posted @ 2024-12-22 10:39 一只大学生阅读(137) 评论(0) 推荐(0)

异步爬虫实战-爬取西游记

摘要：# http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"} => 所有章节的内容(名称, cid) # 章节内部的内容 # http://dushu.baidu.com/api/pc/getChapterConte 阅读全文

posted @ 2024-12-21 20:36 一只大学生阅读(77) 评论(0) 推荐(0)

aiohttp异步网络请求

摘要：下载 pip install aiohttp 示例 import aiohttp import asyncio urls = [ 'https://cdn.pixabay.com/photo/2018/01/14/23/12/nature-3082832_640.jpg', 'https://cdn 阅读全文

posted @ 2024-12-21 12:47 一只大学生阅读(39) 评论(0) 推荐(0)

aiofiles异步文件操作

摘要：下载 pip install aiofiles 阅读全文

posted @ 2024-12-21 11:29 一只大学生阅读(38) 评论(0) 推荐(0)

协程示例

摘要：示例1 import asyncio import time async def fun1(): print('fun1开始') await asyncio.sleep(2) print('fun1结束') print(time.time()) async def fun2(): print('fu 阅读全文

posted @ 2024-12-21 00:03 一只大学生阅读(24) 评论(0) 推荐(0)

多线程爬虫-案例

摘要：爬取北京新发地所有菜价 # 1. 如何提取单个页面的数据 # 2. 上线程池,多个页面同时抓取 import requests from lxml import etree import csv from concurrent.futures import ThreadPoolExecutor f 阅读全文

posted @ 2024-12-20 22:51 一只大学生阅读(34) 评论(0) 推荐(0)

代理

摘要：使用代理防止大量爬取时被封ip 原理普通访问b站使用代理，d为代理ip 示例 # 原理. 通过第三方的一个机器去发送请求 import requests # 218.60.8.83:3129 proxies = { "https": "https://218.60.8.83:3129" } re 阅读全文

posted @ 2024-12-19 22:30 一只大学生阅读(26) 评论(0) 推荐(0)

处理防盗链

摘要：防盗链: 溯源, 当前本次请求的上一级是谁案例抓取梨视频 # 1. 拿到contId # 2. 拿到videoStatus返回的json. -> srcURL # 3. srcURL里面的内容进行修整 # 4. 下载视频 import requests # 拉取视频的网址 url = "http 阅读全文

posted @ 2024-12-19 22:16 一只大学生阅读(26) 评论(0) 推荐(0)

requests.session处理Cookie验证

摘要：Cookie存储在用户的浏览器中 Token 一般携带在url后面或headers中，有签名加密，安全性相对更高案例爬取书架上内容 # 登录 -> 得到cookie # 带着cookie 去请求到书架url -> 书架上的内容 # 必须得把上面的两个操作连起来 # 我们可以使用session进行阅读全文

posted @ 2024-12-19 21:49 一只大学生阅读(44) 评论(0) 推荐(0)

re、bs4、xpath数据解析

摘要：re正则介绍 RegularExpression，正则表达式，一种使用表达式的方式对字符串进行匹配的语法规则，我们抓取到的网页源代码本质上就是一个超长的字符串，想从里面提取内容，用正则再合适不过了，正则的优点：速度快，效率高，准确性高正则的缺点：新手上手难度有点儿高使用四种常用匹配方式阅读全文

posted @ 2024-12-18 10:43 一只大学生阅读(63) 评论(0) 推荐(0)

requests

摘要：requests库是一个第三方库，urllib是python自带库。requests要更加简便好用下载 pip install requests 示例 get import requests # 反爬：模拟浏览器请求，防止识别为自动化程序 headers = {"User-Agent": "Moz 阅读全文

posted @ 2024-12-17 22:17 一只大学生阅读(64) 评论(0) 推荐(0)

爬虫介绍

摘要：介绍爬虫指爬取网络资源，如：视频，音乐，资料等 python写爬虫，代码简洁，其他语言也可以做爬虫善意的爬虫，不破坏被爬取的网站的资源（正常访问，一般频率不高，不窃取用户隐私）恶意的爬虫，影响网站的正常运营（抢票，秒杀，疯狂solo网站资源造成网站岩机） robots.txt协议：君子协议。阅读全文

posted @ 2024-12-17 16:54 一只大学生阅读(34) 评论(0) 推荐(0)

Loading

一只大学生

大道至简

文章分类 - 爬虫