文章分类 -  爬虫

摘要:from selenium.webdriver import Chrome from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.chrome.options import O 阅读全文
posted @ 2024-12-24 11:32 一只大学生 阅读(6) 评论(0) 推荐(0) 编辑
摘要:from selenium.webdriver import Chrome from chaojiying import Chaojiying_Client import time web = Chrome() web.get("http://www.chaojiying.com/user/logi 阅读全文
posted @ 2024-12-24 11:31 一只大学生 阅读(0) 评论(0) 推荐(0) 编辑
摘要:网址:https://www.chaojiying.com/ 使用 生成软件ID 下载代码,在自己代码中配置 老师的(修改过后的) #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class C 阅读全文
posted @ 2024-12-24 11:30 一只大学生 阅读(3) 评论(0) 推荐(0) 编辑
摘要:引入概述 # 能不能让我的程序连接到浏览器 . 让浏览器来完成各种复杂的操作, 我们只接受最终的结果 # selenium: 自动化测试工具 # 可以: 打开浏览器. 然后像人一样去操作浏览器 # 程序员可以从selenium中直接提取网页上的各种信息 # 环境搭建: # pip install s 阅读全文
posted @ 2024-12-24 11:28 一只大学生 阅读(5) 评论(0) 推荐(0) 编辑
摘要:如何爬取视频 # <video src="不能播的视频.mp4"></video> # 一般的视频网站是怎么做的? # 用户上传 -> 转码(把视频做处理, 2K, 1080, 标清) -> 切片处理(把单个的文件进行拆分) 60 # 用户在进行拉动进度条的时候 # # 需要一个文件记录: 1.视频 阅读全文
posted @ 2024-12-22 10:39 一只大学生 阅读(19) 评论(0) 推荐(0) 编辑
摘要:# http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"} => 所有章节的内容(名称, cid) # 章节内部的内容 # http://dushu.baidu.com/api/pc/getChapterConte 阅读全文
posted @ 2024-12-21 20:36 一只大学生 阅读(15) 评论(0) 推荐(0) 编辑
摘要:下载 pip install aiohttp 示例 import aiohttp import asyncio urls = [ 'https://cdn.pixabay.com/photo/2018/01/14/23/12/nature-3082832_640.jpg', 'https://cdn 阅读全文
posted @ 2024-12-21 12:47 一只大学生 阅读(12) 评论(0) 推荐(0) 编辑
摘要:下载 pip install aiofiles 阅读全文
posted @ 2024-12-21 11:29 一只大学生 阅读(15) 评论(0) 推荐(0) 编辑
摘要:示例1 import asyncio import time async def fun1(): print('fun1开始') await asyncio.sleep(2) print('fun1结束') print(time.time()) async def fun2(): print('fu 阅读全文
posted @ 2024-12-21 00:03 一只大学生 阅读(7) 评论(0) 推荐(0) 编辑
摘要:爬取北京新发地所有菜价 # 1. 如何提取单个页面的数据 # 2. 上线程池,多个页面同时抓取 import requests from lxml import etree import csv from concurrent.futures import ThreadPoolExecutor f 阅读全文
posted @ 2024-12-20 22:51 一只大学生 阅读(14) 评论(0) 推荐(0) 编辑
摘要:使用代理防止大量爬取时被封ip 原理 普通访问b站 使用代理,d为代理ip 示例 # 原理. 通过第三方的一个机器去发送请求 import requests # 218.60.8.83:3129 proxies = { "https": "https://218.60.8.83:3129" } re 阅读全文
posted @ 2024-12-19 22:30 一只大学生 阅读(5) 评论(0) 推荐(0) 编辑
摘要:防盗链: 溯源, 当前本次请求的上一级是谁 案例 抓取梨视频 # 1. 拿到contId # 2. 拿到videoStatus返回的json. -> srcURL # 3. srcURL里面的内容进行修整 # 4. 下载视频 import requests # 拉取视频的网址 url = "http 阅读全文
posted @ 2024-12-19 22:16 一只大学生 阅读(4) 评论(0) 推荐(0) 编辑
摘要:Cookie存储在用户的浏览器中 Token 一般携带在url后面或headers中,有签名加密,安全性相对更高 案例 爬取书架上内容 # 登录 -> 得到cookie # 带着cookie 去请求到书架url -> 书架上的内容 # 必须得把上面的两个操作连起来 # 我们可以使用session进行 阅读全文
posted @ 2024-12-19 21:49 一只大学生 阅读(20) 评论(0) 推荐(0) 编辑
摘要:re正则 介绍 RegularExpression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则, 我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再合适不过了, 正则的优点:速度快,效率高,准确性高 正则的缺点:新手上手难度有点儿高 使用 四种常用匹配方式 阅读全文
posted @ 2024-12-18 10:43 一只大学生 阅读(13) 评论(0) 推荐(0) 编辑
摘要:requests库是一个第三方库,urllib是python自带库。requests要更加简便好用 下载 pip install requests 示例 get import requests # 反爬:模拟浏览器请求,防止识别为自动化程序 headers = {"User-Agent": "Moz 阅读全文
posted @ 2024-12-17 22:17 一只大学生 阅读(22) 评论(0) 推荐(0) 编辑
摘要:介绍 爬虫指爬取网络资源,如:视频,音乐,资料等 python写爬虫,代码简洁,其他语言也可以做爬虫 善意的爬虫,不破坏被爬取的网站的资源(正常访问,一般频率不高,不窃取用户隐私) 恶意的爬虫,影响网站的正常运营(抢票,秒杀,疯狂solo网站资源造成网站岩机) robots.txt协议: 君子协议。 阅读全文
posted @ 2024-12-17 16:54 一只大学生 阅读(11) 评论(0) 推荐(0) 编辑

more_horiz
keyboard_arrow_up dark_mode palette
选择主题
点击右上角即可分享
微信分享提示