2023 年 4月随笔档案 - LePenseur

01web框架的本质

摘要：学习内容这个阶段的学习内容 1. Django基础 2. Redis基础 3. Django实战项目 4. linux基础 django这个阶段，知识点很多，很碎，要记忆的很多所需知识点： Python的基础语法函数模块与包面向对象安装MySQL 创建数据库前端回顾知识 python 阅读全文

posted @ 2023-04-19 10:29 LePenseur 阅读(19) 评论(0) 推荐(0) 编辑

偷懒神器

摘要：偷懒神器网址：https://curlconverter.com/ 方法：找到你要发送请求的url 鼠标右键 copy --> copy curl(bash) 阅读全文

posted @ 2023-04-05 00:50 LePenseur 阅读(59) 评论(0) 推荐(0) 编辑

12IP反爬

摘要：IP反爬 http协议：是属于应用层的协议应用层：封装数据传输层：封装端口网络层：封装IP地址数据链路层：封装Mac地址物理层：进行数据传输通过IP访问频率来进行反爬，正常的用户一秒钟发送一次请求，我们使用爬虫的话是可以在一秒内发送多次请求的，这个很明显就是一个爬虫的行为。不要你访问他阅读全文

posted @ 2023-04-05 00:50 LePenseur 阅读(30) 评论(0) 推荐(0) 编辑

11字体反爬

摘要：字体反爬字体解析网址：https://kekee000.github.io/fonteditor/ 反反爬原理导包，将字体文件解析成xml文件 from fontTools.ttLib import TTFont font = TTFont('be251a83.woff') font.saveX 阅读全文

posted @ 2023-04-05 00:49 LePenseur 阅读(28) 评论(0) 推荐(0) 编辑

10请求头反爬

摘要：反爬处理爬虫：使用技术手段去批量的获取网上的数据反爬：使用技术手段，阻止别人获取自己网站上的数据反反爬：使用技术手段绕过对方反爬策略请求头反爬 User-Agent：在HTTP请求的请求头里面的一个字段，用来表明。请求的客户端是什么，不同的浏览器会有不同的User-Agent。我们之前处理阅读全文

posted @ 2023-04-05 00:49 LePenseur 阅读(102) 评论(0) 推荐(0) 编辑

09excel存储

摘要：数据存储：Excel python内置模块中是没有提供处理Excel文件的模块，想要在python中操作Excel是需要安装第三方模块openpyxl，这个模块中集成了python操作Excel的相关功能。 cmd：pip install openpyxl 需要注意的是 openpyxl处理的Exc 阅读全文

posted @ 2023-04-05 00:48 LePenseur 阅读(23) 评论(0) 推荐(0) 编辑

08多任务爬虫

摘要：多任务爬虫线程进程回顾实现多任务爬虫的方式：多进程/多线程进程：是计算机当中最小的资源分配单位线程：是计算机当中可以被CPU调度的最小单位我们执行一个python代码的时候，在计算机的内部会创建一个进程，在进程当中会创建一个线程，代码是由线程去执行的创建进程/线程 import time 阅读全文

posted @ 2023-04-05 00:47 LePenseur 阅读(24) 评论(0) 推荐(0) 编辑

07selenium

摘要：selenium 动态网页爬虫：分析接口，然后通过代码请求这个接口使用selenium+webdriver模拟浏览器获取数据 1. selenium和webdriver Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium可以直接调用浏览器，它支持所有主阅读全文

posted @ 2023-04-05 00:47 LePenseur 阅读(23) 评论(0) 推荐(0) 编辑

06数据存储peewee

摘要：数据存储一、MySQL 1.1 pymysql 建立数据库连接db = pymysql.connect(...) 参数host：连接的mysql主机，如果本机是'127.0.0.1' 参数port：连接的mysql主机的端口，默认是3306 参数database：数据库的名称参数user：连接的阅读全文

posted @ 2023-04-05 00:46 LePenseur 阅读(51) 评论(0) 推荐(0) 编辑

05bs4

摘要：二、BeautifulSoup4 和lxml一样，BeautifulSoup4也是一个HTML/XML的解析器，主要的功能是解析和提取HTML/XML数据。安装：pip install bs4 由于BS4解析页面时需要依赖文档解析器，所以还需要安装lxml作为解析库解析原理 - 数据解析的原理：阅读全文

posted @ 2023-04-05 00:44 LePenseur 阅读(24) 评论(0) 推荐(0) 编辑

04xpath

摘要：数据提取 lxml和xpath lxml是Python的第三方解析库，完全使用Python语言编写，它对Xpath表达式提供了良好的支持，能够了高效地解析HTML/XML文档。 XPath即为XML路径语言，它是一种用来确定XML文档中某部分位置的语言，同样适用于HTML文档的检索。安装：pip 阅读全文

posted @ 2023-04-05 00:44 LePenseur 阅读(16) 评论(0) 推荐(0) 编辑

03请求参数的两种方式

摘要：get请求 # 请求参数用params params={ 'type': '24', 'interval_id': '100:90', 'action':'', 'start': '1', 'limit': '20' } response = requests.get(url=url,params= 阅读全文

posted @ 2023-04-05 00:43 LePenseur 阅读(33) 评论(0) 推荐(0) 编辑

02requests的使用

摘要：requests的使用一、requests模块 1.1 request模块的安装在CMD命令行中执行如下命令进行在线安装 pip install requests 由于网络的不稳定性有时会导致下载失败，在下载的时候我们可以加上第三方源进行下载清华：https://pypi.tuna.tsing 阅读全文

posted @ 2023-04-05 00:42 LePenseur 阅读(25) 评论(0) 推荐(0) 编辑

01爬虫初识

摘要：初识爬虫一、爬虫介绍爬虫主要的功能就是抓取网络数据的程序。本质就是用程序模拟人使用浏览器访问网站，并将所需要的数据抓取下来。爬虫可分为两大类：通用网络爬虫、聚焦网络爬虫通用网络爬虫：是搜索引擎的重要组成部分，百度搜索引擎，其实可以更形象地称之为百度蜘蛛（Baiduspider），它每天会在海阅读全文

posted @ 2023-04-05 00:41 LePenseur 阅读(114) 评论(0) 推荐(0) 编辑

woshijcx

04 2023 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜