04 2023 档案

摘要:学习内容 这个阶段的学习内容 1. Django基础 2. Redis基础 3. Django实战项目 4. linux基础 django这个阶段,知识点很多,很碎,要记忆的很多 所需知识点: Python的基础语法 函数 模块与包 面向对象 安装MySQL 创建数据库 前端 回顾知识 python 阅读全文
posted @ 2023-04-19 10:29 LePenseur 阅读(19) 评论(0) 推荐(0) 编辑
摘要:偷懒神器 网址:https://curlconverter.com/ 方法:找到你要发送请求的url 鼠标右键 copy --> copy curl(bash) 阅读全文
posted @ 2023-04-05 00:50 LePenseur 阅读(59) 评论(0) 推荐(0) 编辑
摘要:IP反爬 http协议:是属于应用层的协议 应用层:封装数据 传输层:封装端口 网络层:封装IP地址 数据链路层:封装Mac地址 物理层:进行数据传输 通过IP访问频率来进行反爬,正常的用户一秒钟发送一次请求,我们使用爬虫的话是可以在一秒内发送多次请求的,这个很明显就是一个爬虫的行为。 不要你访问他 阅读全文
posted @ 2023-04-05 00:50 LePenseur 阅读(30) 评论(0) 推荐(0) 编辑
摘要:字体反爬 字体解析网址:https://kekee000.github.io/fonteditor/ 反反爬原理 导包,将字体文件解析成xml文件 from fontTools.ttLib import TTFont font = TTFont('be251a83.woff') font.saveX 阅读全文
posted @ 2023-04-05 00:49 LePenseur 阅读(28) 评论(0) 推荐(0) 编辑
摘要:反爬处理 爬虫:使用技术手段去批量的获取网上的数据 反爬:使用技术手段,阻止别人获取自己网站上的数据 反反爬:使用技术手段 绕过对方反爬策略 请求头反爬 User-Agent:在HTTP请求的请求头里面的一个字段,用来表明。请求的客户端是什么,不同的浏览器会有不同的User-Agent。我们之前处理 阅读全文
posted @ 2023-04-05 00:49 LePenseur 阅读(102) 评论(0) 推荐(0) 编辑
摘要:数据存储:Excel python内置模块中是没有提供处理Excel文件的模块,想要在python中操作Excel是需要安装第三方模块openpyxl,这个模块中集成了python操作Excel的相关功能。 cmd:pip install openpyxl 需要注意的是 openpyxl处理的Exc 阅读全文
posted @ 2023-04-05 00:48 LePenseur 阅读(23) 评论(0) 推荐(0) 编辑
摘要:多任务爬虫 线程进程回顾 实现多任务爬虫的方式:多进程/多线程 进程:是计算机当中最小的资源分配单位 线程:是计算机当中可以被CPU调度的最小单位 我们执行一个python代码的时候,在计算机的内部会创建一个进程,在进程当中会创建一个线程,代码是由线程去执行的 创建进程/线程 import time 阅读全文
posted @ 2023-04-05 00:47 LePenseur 阅读(24) 评论(0) 推荐(0) 编辑
摘要:selenium 动态网页爬虫: 分析接口,然后通过代码请求这个接口 使用selenium+webdriver模拟浏览器获取数据 1. selenium和webdriver Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接调用浏览器,它支持所有主 阅读全文
posted @ 2023-04-05 00:47 LePenseur 阅读(23) 评论(0) 推荐(0) 编辑
摘要:数据存储 一、MySQL 1.1 pymysql 建立数据库连接db = pymysql.connect(...) 参数host:连接的mysql主机,如果本机是'127.0.0.1' 参数port:连接的mysql主机的端口,默认是3306 参数database:数据库的名称 参数user:连接的 阅读全文
posted @ 2023-04-05 00:46 LePenseur 阅读(51) 评论(0) 推荐(0) 编辑
摘要:二、BeautifulSoup4 和lxml一样,BeautifulSoup4也是一个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据。 安装:pip install bs4 由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库 解析原理 - 数据解析的原理: 阅读全文
posted @ 2023-04-05 00:44 LePenseur 阅读(24) 评论(0) 推荐(0) 编辑
摘要:数据提取 lxml和xpath lxml是Python的第三方解析库,完全使用Python语言编写,它对Xpath表达式提供了良好的支持,能够了高效地解析HTML/XML文档。 XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档的检索。 安装:pip 阅读全文
posted @ 2023-04-05 00:44 LePenseur 阅读(16) 评论(0) 推荐(0) 编辑
摘要:get请求 # 请求参数用params params={ 'type': '24', 'interval_id': '100:90', 'action':'', 'start': '1', 'limit': '20' } response = requests.get(url=url,params= 阅读全文
posted @ 2023-04-05 00:43 LePenseur 阅读(33) 评论(0) 推荐(0) 编辑
摘要:requests的使用 一、requests模块 1.1 request模块的安装 在CMD命令行中执行如下命令进行在线安装 pip install requests 由于网络的不稳定性有时会导致下载失败,在下载的时候我们可以加上第三方源进行下载 清华:https://pypi.tuna.tsing 阅读全文
posted @ 2023-04-05 00:42 LePenseur 阅读(25) 评论(0) 推荐(0) 编辑
摘要:初识爬虫 一、爬虫介绍 爬虫主要的功能就是抓取网络数据的程序。本质就是用程序模拟人使用浏览器访问网站,并将所需要的数据抓取下来。 爬虫可分为两大类:通用网络爬虫、聚焦网络爬虫 通用网络爬虫:是搜索引擎的重要组成部分,百度搜索引擎,其实可以更形象地称之为百度蜘蛛(Baiduspider),它每天会在海 阅读全文
posted @ 2023-04-05 00:41 LePenseur 阅读(114) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示