随笔分类 -  爬虫案例

存放一些自己做的爬虫案例及知识讲解
摘要:# 逆向案例之X车网 ## ***用到的知识点: ### (1)requests模块和session模块,发起请求 - 什么是session对象? - 该对象和requests模块用法几乎一致. - 对于在请求过程中产生了cookie的请求 - 如果该请求是使用session发起的,则cookie会 阅读全文 »
posted @ 2023-05-21 18:32 Chimengmeng 阅读(114) 评论(0) 推荐(0) 编辑
摘要:JS逆向案例之网易云音乐逆向 网址: 网易云音乐真离谱哇,一直扣扣扣 在参考了好几个大神,以及自己多次犯错误之后,终于是完成了网易云音乐两个加密参数的逆向。 好耶 ヾ(✿゚▽゚)ノ ***用到的知识点: (1)requests模块和session模块,发起请求 什么是session对象? 该对象和r 阅读全文 »
posted @ 2023-05-17 16:40 Chimengmeng 阅读(506) 评论(1) 推荐(0) 编辑
摘要:网易有道翻译之逆向破解[execjs代码改写] 网址:https://fanyi.youdao.com/index.html#/ ***用到的知识点: (1)requests模块和session模块,发起请求 什么是session对象? 该对象和requests模块用法几乎一致. 对于在请求过程中产 阅读全文 »
posted @ 2023-05-14 08:56 Chimengmeng 阅读(309) 评论(0) 推荐(0) 编辑
摘要:网易有道翻译逆向案例 本次案例逆向的是网易有道云翻译 https://fanyi.youdao.com/index.html#/ 用到的知识包括 requests 模块及方法 md5加密 js代码环境的补全 【一】分析网站 (1)网站页面如图 (2)抓包 (3)分析抓到的包 逐个查看每个包的标头和载 阅读全文 »
posted @ 2023-05-13 20:49 Chimengmeng 阅读(301) 评论(0) 推荐(0) 编辑
摘要:网易有道翻译之逆向破解[Python代码改写] 网址:https://fanyi.youdao.com/index.html#/ ***用到的知识点: (1)requests模块和session模块,发起请求 什么是session对象? 该对象和requests模块用法几乎一致. 对于在请求过程中产 阅读全文 »
posted @ 2023-05-13 20:42 Chimengmeng 阅读(205) 评论(0) 推荐(0) 编辑
摘要:爬虫案例之视频爬取与合成 案例网址:https://v6.dious.cc 下载视频的网址:https://www.99meijutt.com/play/97071-0-0.html 用到的知识点 asynic,协程异步操作。 ffmpeg,合成视频指令 aiohttp,在协程里面发送异步请求 【一 阅读全文 »
posted @ 2023-05-11 19:15 Chimengmeng 阅读(1083) 评论(0) 推荐(0) 编辑
摘要:Scrapy框架详解 【1】 Spider类 Spiders是定义如何抓取某个站点(或一组站点)的类,包括如何执行爬行(即跟随链接)以及如何从其页面中提取结构化数据(即抓取项目)。 换句话说,Spiders是您为特定站点(或者在某些情况下,一组站点)爬网和解析页面定义自定义行为的地方。 1、 生成初 阅读全文 »
posted @ 2023-04-07 15:58 Chimengmeng 阅读(22) 评论(0) 推荐(0) 编辑
摘要:Scrapy框架简介 (1)基本介绍 Scrapy一个开源和协作的框架, 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。 但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返 阅读全文 »
posted @ 2023-04-07 15:57 Chimengmeng 阅读(37) 评论(0) 推荐(0) 编辑
摘要:PyMongo 在这里我们来看一下Python3下MongoDB的存储操作,在本节开始之前请确保你已经安装好了MongoDB并启动了其服务,另外安装好了Python的PyMongo库。 安装: pip install pymongo 添加文档 import pymongo client = pymo 阅读全文 »
posted @ 2023-04-02 20:28 Chimengmeng 阅读(21) 评论(0) 推荐(0) 编辑
摘要:Python操作redis (1)连接redis # 方式1 import redis r = redis.Redis(host='127.0.0.1', port=6379) r.set('foo', 'Bar') print(r.get('foo')) # 方式2 import redis po 阅读全文 »
posted @ 2023-04-02 20:26 Chimengmeng 阅读(15) 评论(0) 推荐(0) 编辑
摘要:Python操作MySQL import pymysql # 打开数据库连接 db = pymysql.connect(host='localhost', user='root', passwd='...', port=3306,datebase='...') print('连接成功!') # 使用 阅读全文 »
posted @ 2023-04-02 20:24 Chimengmeng 阅读(23) 评论(0) 推荐(0) 编辑
摘要:视频文件下载 视频网址:https://www.9tata.cc/play/96891-0-0.html 一、单集视频下载 分析思路 1、分析目标网址:有无反爬、是否需要逆向、存储视频文件的包的位置 2、一般的视频文件。都是由一个个的ts文件组成,我们看到的整集视频,是由一个个小片段组合而成 3、分 阅读全文 »
posted @ 2023-03-24 18:13 Chimengmeng 阅读(129) 评论(0) 推荐(0) 编辑
摘要:并发爬虫之协程实现 协程,又称微线程,纤程。英文名Coroutine。一句话说明什么是线程:协程是一种用户态的轻量级线程。 协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈。因此: 协程能保留上一次调用时的状态(即所有局 阅读全文 »
posted @ 2023-03-22 20:47 Chimengmeng 阅读(76) 评论(0) 推荐(0) 编辑
摘要:各种线程方法对比 1 threading.Thread 方法 1.1 步骤如下: 调用threading 方法的构造创建一个线程池。 定义一个普通函数作为线程任务。 调用 threading 对象的 start() 方法来提交线程任务。 调用 threading 对象的 join() 方法来实现线程 阅读全文 »
posted @ 2023-03-19 11:57 Chimengmeng 阅读(44) 评论(0) 推荐(0) 编辑
摘要:线程案例:爬取斗图吧表情包图片 方案一:单线程版本 耗时慢 import requests from fake_useragent import UserAgent import random from lxml import etree import os import time # 伪装UA f 阅读全文 »
posted @ 2023-03-15 13:00 Chimengmeng 阅读(40) 评论(0) 推荐(0) 编辑
摘要:#对爬取17k小说的代码进行优化 import requests import os from time import sleep from lxml import etree import random from fake_useragent import UserAgent # 全局变量:UA伪 阅读全文 »
posted @ 2023-03-13 16:53 Chimengmeng 阅读(269) 评论(0) 推荐(0) 编辑
摘要:目的要求: 爬取17k小说网,自己书架内的小说并做每一章节的存储 分析思路 1、顺利进入自己的书架 2、爬取到书架里的全部书籍名字及详细链接 3、通过访问书籍详细链接,获取每一章的链接 4、访问每一章的链接获取到章节标题和内容 5、打开文件进行存储 具体流程 1、分析目标网址 首先分析目标网址:ht 阅读全文 »
posted @ 2023-03-09 15:44 Chimengmeng 阅读(1205) 评论(0) 推荐(0) 编辑
摘要:案例一:彼岸图网4K壁纸 import requests from selenium.webdriver.chrome.service import Service from selenium import webdriver from time import sleep from lxml imp 阅读全文 »
posted @ 2023-03-03 21:46 Chimengmeng 阅读(31) 评论(0) 推荐(0) 编辑