03 2023 档案
发表于 2023-03-24 18:13阅读:129评论:0推荐:0
摘要:视频文件下载 视频网址:https://www.9tata.cc/play/96891-0-0.html 一、单集视频下载 分析思路 1、分析目标网址:有无反爬、是否需要逆向、存储视频文件的包的位置 2、一般的视频文件。都是由一个个的ts文件组成,我们看到的整集视频,是由一个个小片段组合而成 3、分
阅读全文 »
发表于 2023-03-24 12:45阅读:26评论:0推荐:0
摘要:Python之面向对象 11.1、OOP编程思想 面向对象编程是在面向过程编程的基础上发展来的,它比面向过程编程具有更强的灵活性和扩展性。面向对象编程是程序员发展的分水岭,很多初学者会因无法理解面向对象而放弃学习编程。 面向对象编程(Object-oriented Programming,简称 OO
阅读全文 »
发表于 2023-03-22 20:47阅读:76评论:0推荐:0
摘要:并发爬虫之协程实现 协程,又称微线程,纤程。英文名Coroutine。一句话说明什么是线程:协程是一种用户态的轻量级线程。 协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈。因此: 协程能保留上一次调用时的状态(即所有局
阅读全文 »
发表于 2023-03-20 14:40阅读:19评论:0推荐:0
摘要:三、样式属性 1 、样式属性 1.1 颜色 1.1.1 颜色的表示 css中针对颜色表达支持三种写法:单词表示法、十六进制表示法和RGB函数表示法。 1.1.2 单词表示法 通过英文单词来表达颜色。但是因为计算机中支持的颜色普遍在1677万种颜色左右。 red; /* 红色 */ yellow; /
阅读全文 »
发表于 2023-03-20 14:38阅读:18评论:0推荐:0
摘要:二、CSS样式的优先级 1 css样式的优先级 css在使用过程中,因为很多的选择符有具有批量查找的特点,所以很容易出现样式污染的问题。 样式污染出现的原因是因为css代码编写过程中,因为引入方式、书写先后顺序以及选择符的优先级等问题导致的。 注意:样式污染并非不好,而是要可控! 2 引入方式的优先
阅读全文 »
发表于 2023-03-20 14:36阅读:32评论:0推荐:0
摘要:二、CSS基础之基本语法 作为一门标记语言,css的语法也是比较简单的,主要由三部分构成:选择符,样式属性和属性值。 css中的语法虽然简单,但是太多内容了,所以要学会css,就需要多背多写,掌握使用规律,懂得借助浏览器与css手册。 注意,在前端领域中,有些人会觉得css负责外观样式这块,很容易存
阅读全文 »
发表于 2023-03-20 14:35阅读:12评论:0推荐:0
摘要:一、CSS基础之入门使用 层叠样式表(Cascading Style Sheets),与HTML一样,也是一种标记语言 其作用就是给HTML页面标签添加各种样式,定义网页的显示效果,将网页内容和显示样式进行分离,提高了显示功能。 简单一句话就是,CSS的代码可以告诉浏览器怎么美化HTML标签的内容。
阅读全文 »
发表于 2023-03-20 14:34阅读:432评论:0推荐:0
摘要:四、媒体标签 之前说过所谓的超文本,就是超出文本范畴的文档 所以我们在网页编写过程中,经常也需要在网页中展示或播放一些媒体资源 例如:图片,音频,视频。 | 标签 | 常见格式 | 描述 | | | | | | <img src="" alt=""> | png,jpg/jpeg,gif(动态图片格
阅读全文 »
发表于 2023-03-19 11:57阅读:44评论:0推荐:0
摘要:各种线程方法对比 1 threading.Thread 方法 1.1 步骤如下: 调用threading 方法的构造创建一个线程池。 定义一个普通函数作为线程任务。 调用 threading 对象的 start() 方法来提交线程任务。 调用 threading 对象的 join() 方法来实现线程
阅读全文 »
发表于 2023-03-19 09:19阅读:15评论:0推荐:0
摘要:多进程实现 由于GIL的存在,python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。 multiprocessing包是Python中的多进程管理包。 与threading.Thread类似,它可以利用multiprocessin
阅读全文 »
发表于 2023-03-19 09:18阅读:25评论:0推荐:0
摘要:多线程实现之线程池 1 引入 系统启动一个新线程的成本是比较高的,因为它涉及与操作系统的交互。 在这种情形下,使用线程池可以很好地提升性能, 尤其是当程序中需要创建大量生存期很短暂的线程时,更应该考虑使用线程池。 线程池在系统启动时即创建大量空闲的线程,程序只要将一个函数提交给线程池,线程池就会启动
阅读全文 »
发表于 2023-03-19 09:18阅读:52评论:0推荐:0
摘要:多线程实现之互斥锁 问题引入 假如存在一个列表: A线程对其修改,B进程对其访问 假如A,B线程同时去修改和访问则会出现问题 一个数据明明要被A线程删掉的,结果B线程抢先一步就把这个数据访问到了 那么如何解决这个问题呢?可以使用线程同步 1.1 线程同步: 多个线程访问一个对象时,请线程们先排好队,
阅读全文 »
发表于 2023-03-19 09:17阅读:59评论:0推荐:1
摘要:一、变量作用域 变量的作用域 Python是静态作用域,也就是说Python中,变量的作用域源于它在代码中的位置 在不同的位置,可能有不同的命名空间。命名空间是变量作用域的体现形式 python变量作用域一般有4种: Local(局部变量) Enclosed(嵌套) Global(全局) Built
阅读全文 »
发表于 2023-03-16 13:39阅读:40评论:0推荐:0
摘要:使用table+表单,把课堂上的form标签的代码,整理成以下格式(不要外观): <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> </head> <body> <!--<form
阅读全文 »
发表于 2023-03-16 13:38阅读:15评论:0推荐:0
摘要:三、表格标签 表格系列标签主要是可以数据以表格的格式展示出来。但是现在table表格已经很少使用了,而是改成div+css实现更漂亮的表格。 | 标签 | 描述 | | | | | <table></table> | 表示网页的一个表格,内部一般直接嵌套的是tr标签。 | | <tr></tr> |
阅读全文 »
发表于 2023-03-16 13:36阅读:650评论:0推荐:0
摘要:二、表单标签 是HTML中最终的标签之一,主要是提供了输入框或按钮等标签提供给用户进行交互输入数据。将来表单可以提交到指定服务端程序中进行数据处理。 1 form标签 | 属性 | 描述 | | | | | action | 设置当前表单的表单数据处理应用程序的url地址,默认值是当前url地址。
阅读全文 »
发表于 2023-03-16 13:28阅读:51评论:0推荐:0
摘要:一、列表标签 列表是一种结构标签 可以让网页的内容形成列表格式。 列表标签在HTML中提供提供了4种: 无序列表(UnorderList,ul) 就是没有序号的,内容不分先后的列表。 有序列表(OrderList,ol) 定义列表(DefineList,dl) 菜单列表(Menu) 除了定义列表结构
阅读全文 »
发表于 2023-03-16 13:26阅读:19评论:0推荐:0
摘要:一、HTML Hyper Text Markup Language ,译作超文本标记语言,是一门标记语言,不是编程语言。所以它没有变量,也没有任何语句结构。 所谓的超文本,就是超越了文本范畴的文档格式,普通文本只能显示文字,而超文本可以显示各种的媒体资源,例如:html网页,doc文档,xls文档等
阅读全文 »
发表于 2023-03-16 13:24阅读:38评论:0推荐:0
摘要:软件架构体系: (1)、C/S: client/Server 客户端/服务端 QQ, 酷狗, 爱奇艺, 王者荣耀等3D游戏 (2)、B/S: browser/Server 浏览器/服务端 百度/淘宝/京东/网页版的爱奇艺/基于web前端技术实现的一些手机APP[例如:百度地图、喜马拉雅、消消乐、斗地
阅读全文 »
发表于 2023-03-15 13:00阅读:40评论:0推荐:0
摘要:线程案例:爬取斗图吧表情包图片 方案一:单线程版本 耗时慢 import requests from fake_useragent import UserAgent import random from lxml import etree import os import time # 伪装UA f
阅读全文 »
发表于 2023-03-15 12:52阅读:15评论:0推荐:0
摘要:并发爬虫三、多进程实现 由于GIL的存在,python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。 multiprocessing包是Python中的多进程管理包。 与threading.Thread类似,它可以利用multipro
阅读全文 »
发表于 2023-03-15 12:51阅读:22评论:0推荐:0
摘要:并发爬虫二、多线程实现 【1】threading模块 Python提供两个模块进行多线程的操作,分别是thread和threading,前者是比较低级的模块,用于更底层的操作,一般应用级别的开发不常用。 import time def foo(): print("foo start...") tim
阅读全文 »
发表于 2023-03-15 12:50阅读:40评论:0推荐:0
摘要:并发爬虫一、进程、线程以及协程 1. 并发与并行 2. IO密集型任务和计算密集型任务 3. 同步与异步 4. IO模型(IO多路复用) 5. 内核态多线程,用户态多线程 所谓并发编程是指在一台处理器上“同时”处理多个任务。并发是在同一实体上的多个事件。 强调多个事件在同一时间间隔发生 【1】进程概
阅读全文 »
发表于 2023-03-13 16:53阅读:269评论:0推荐:0
摘要:#对爬取17k小说的代码进行优化 import requests import os from time import sleep from lxml import etree import random from fake_useragent import UserAgent # 全局变量:UA伪
阅读全文 »
发表于 2023-03-12 21:28阅读:25评论:0推荐:0
摘要:# 算法基础 ## 1、什么是算法? - 算法(Algorithm):一个计算过程,解决问题的方法 - Niklaus Wirth:“ 程序 = 数据结构 + 算法 ”  代码执行顺序 我们可以看到Python仅仅用了一行代码即可完成其他编程语言多行的输出Hello,World 其他的编程语言像C/C++/C#/JAVA 等 都会有一个main主函数的框架 所有的代码都是在该框架下运行的,有且只能有一个
阅读全文 »
发表于 2023-03-10 16:17阅读:321评论:0推荐:0
摘要:文件打包 概要 脚本打包exe:win/mac【终端】 qt5,开发桌面应用 打包qt5程序【桌面应用】 1.exe 打包 pip install pyinstaller 注意事项: 支持mac、win(Windows建议使用python3.6.8) 配合虚拟环境打包 Mac系统下: 1、在mac系
阅读全文 »
发表于 2023-03-09 15:44阅读:1205评论:0推荐:0
摘要:目的要求: 爬取17k小说网,自己书架内的小说并做每一章节的存储 分析思路 1、顺利进入自己的书架 2、爬取到书架里的全部书籍名字及详细链接 3、通过访问书籍详细链接,获取每一章的链接 4、访问每一章的链接获取到章节标题和内容 5、打开文件进行存储 具体流程 1、分析目标网址 首先分析目标网址:ht
阅读全文 »
发表于 2023-03-08 14:51阅读:76评论:0推荐:0
摘要:代理IP **代理IP:**反反爬使用代理ip是非常必要的一种反反爬的方式,但是即使使用了代理ip,对方服务器任然会有很多的方式来检测我们是否是一个爬虫,比如:一段时间内,检测IP访问的频率,访问太多频繁会屏蔽;检查Cookie,User-Agent,Referer等header参数,若没有则屏蔽;
阅读全文 »
发表于 2023-03-08 12:38阅读:23评论:0推荐:0
摘要:OS模块 (1) 创建文件夹 os.mkdir("我的模块") (2) 路径拼接: os.path.join # path = os.path.join("我的模块", "apple.txt") # print(path) # 我的模块/apple.txt # with open(path, "w"
阅读全文 »
发表于 2023-03-05 14:11阅读:50评论:0推荐:0
摘要:BS4 【1】简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: ''' Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简
阅读全文 »
发表于 2023-03-03 21:46阅读:31评论:0推荐:0
摘要:案例一:彼岸图网4K壁纸 import requests from selenium.webdriver.chrome.service import Service from selenium import webdriver from time import sleep from lxml imp
阅读全文 »
发表于 2023-03-03 17:39阅读:94评论:0推荐:0
摘要:Cookie 一、什么是cookie? cookie的本质就是一组数据(键值对的形式存在) 是由服务器创建,返回给客户端,最终会保存在客户端浏览器中。 如果客户端保存了cookie,则下次再次访问该服务器,就会携带cookie进行网络访问。 典型的案例:网站的免密登录 二、Cookie的玩法 1、构
阅读全文 »
发表于 2023-03-03 17:37阅读:64评论:0推荐:0
摘要:请求参数与请求体参数 一、什么是params参数(请求参数) get 方法是可以向服务器发送信息的,除了可以请求需要的页面之外,也可以发送我们指定的内容,这就是通过 params 参数实现的 request库 get方法 params 这个 params 参数是字典结构,前面说到的 headers
阅读全文 »
发表于 2023-03-03 17:36阅读:84评论:0推荐:0
摘要:Referer 一、referer是什么: 图片防盗链的技术应该还有其他的,目前了解到的是浏览器的referer,其实这是错误的拼写,正确是应该是referrer。不过现在可以看到Chrome的开发者工具里,还是显示的是前者,拼写不重要,重要的是理解它的含义。 简单来讲,referer的作用就是记录
阅读全文 »