摘要:
Scrapy03--分页、处理cookie与中间件 一、分页(多页)抓取思路 ### 不涉及scrapy,所有网站分页的抓取思路 ### 1.正常的 普通分页 分页表现: 上一页 1,2,3,4,5,6 下一页 # 情况1: 页面源代码中 有分页的url 解决方案: 1.访问第一页 > 提取下一页的 阅读全文
摘要:
Scrapy02--管道 0. 关于管道 上一节内容,我们已经可以从spider中提取到数据. 然后通过引擎将数据传递给pipeline 那么在pipeline中如何对数据进行保存呢? 主要针对四种数据存储,展开讲解 前三个案例以:https://match.lottery.sina.com.cn/ 阅读全文
摘要:
Scrapy01--基本介绍与初步使用 一、爬虫工程化 何为工程化,就是让你的程序更加的有体系,有逻辑,更加的模块化. 到目前为止,我们所编写的爬虫我们都是从头到尾的每一步都要亲力亲为. 这样做固然有其优点(可控性更好),但是各位请认真思考. 这样的代码逻辑是不能形成批量生产的效果的(写100个爬虫 阅读全文
摘要:
01.浏览器 # 一个网页的加载全过程 1. 服务器端渲染 html的内容和数据在服务器进行融合. 在浏览器端看到的页面源代码中. 有你需要的数据 2. 客户端(浏览器)渲染 html的内容和数据进行融合是发生在你的浏览器上的. 这个过程一般通过脚本来完成(javascript) 我们通过浏览器可以 阅读全文
摘要:
djangorestframework-simplejwt使用 转载于:https://www.cnblogs.com/liuqingzheng/p/17942227 1 快速使用 1.1 配置 # 1 安装 pip install djangorestframework-simplejwt # 2 阅读全文
摘要:
一 前期准备 1.1 概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器,并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能, 帮助我们完成数据的抓取 1.2 学习目标 掌握 selenium发送请求,加载网页的方法 掌握 selenium简 阅读全文
摘要:
案例:抓取每日影视的m3u8视频 1 思路分析 练习:抓取 每日影视 首页/域名 https://sp.weoknow.com/ 无耻之徒视频页:https://sp.weoknow.com/index.php/vod/play/id/28124/sid/1/nid/1.html # 分析 0:获得 阅读全文
摘要:
抓取m3u8类型的视频 1 思路步骤 视频url:https://www.9meiju.cc/mohuankehuan/shandianxiadibaji/1-1.html 打开网址分析当前视频是由多个片段组成还是单独一个视频 如果是一个单独视频,则找到网址,直接下载即可 如果为多个片段的视频,则需 阅读全文
摘要:
一 协程概念 # 1 协程 又称微线程(纤程),是一种用户态的轻量级线程 # 2 子程序 在所有的语言中都是层级调用的 比如A中调用B,B在执行过程中调用C C执行完返回,B执行完返回,最后是A执行完毕 这是通过栈实现的,一个函数就是一个执行的子程序 子程序的调用总是有一个入口、一次返回,调用的顺序 阅读全文
摘要:
一 线程 1.1 概念 线程 在一个进程的内部,要同时干多件事,就需要同时运行多个“子任务”,把进程内的这些“子任务”叫做线程 是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位 一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同 阅读全文