2022 年 4月随笔档案 - 志强爱璇璇

Base64加密算法

摘要：##java的Base64加密与解密 import java.util.Base64; public class Hello { public static void main(String[] args){ String name = "哈喽啊"; //base64,加密 Base64.Encod 阅读全文

posted @ 2022-04-30 23:48 志强爱璇璇阅读(119) 评论(0) 推荐(0) 编辑

eval() 的用法

摘要：##eval()简介 eval()函数用来执行一个字符串表达式，并返回表达式的值。还可以把字符串转化为list、tuple、dict。 ##eval()的用法 ###1.字符串转换成列表： a="[1,2,3,4,5]" b=eval(a) ###2.字符串转换成字典 a="{"name":"guo 阅读全文

posted @ 2022-04-29 20:03 志强爱璇璇阅读(568) 评论(0) 推荐(0) 编辑

asyncio --错误信息处理： RuntimeError: Event loop is closed

摘要：##出现这个错误信息的来源用 asyncio.run()方法执行任务时，有时候会出现这样的错误虽然代码执行没有问题，但是报错总感觉不爽 ##解决办法： ###1.解决办法一：不用asyncio.run() 去执行任务，换成 loop = asyncio.get_event_loop() loo 阅读全文

posted @ 2022-04-29 19:25 志强爱璇璇阅读(1331) 评论(0) 推荐(0) 编辑

aiohttp -- 基本使用

摘要：###aiohttp是什么？类似于python的requests库，区别就是可以基于异步发送请求安装： pip install aiohttp ###1.基本语法 import asyncio import aiohttp async def request(url): async with 阅读全文

posted @ 2022-04-29 19:04 志强爱璇璇阅读(69) 评论(0) 推荐(0) 编辑

asyncio-基本用法

摘要：##python的asyncio协程模块的基本使用 ###1.代码示例 import asyncio #创建一个协程函数，协程函数必须以async关键字修饰 async def request(url): print('正在向{}发送请求'.format(url)) #IO阻塞（网络请求等都是IO阻阅读全文

posted @ 2022-04-29 18:33 志强爱璇璇阅读(234) 评论(0) 推荐(0) 编辑

scrapy -- 分布式爬虫

摘要：##什么是分布式爬虫概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。作用：提升爬取数据的效率 ##如何实现分布式安装一个scrapy-redis的组件： pip install scrapy_redis 原生的scarapy是不可以实现分布式爬虫，必须要让scrapy 阅读全文

posted @ 2022-04-28 18:01 志强爱璇璇阅读(96) 评论(0) 推荐(0) 编辑

scrapy -- CrawlSpider类

摘要：##CrawlSpider类是什么？是Spider的一个子类区别： Spider是获取到URL进行手动发送请求： yield scrapy.Request(url=new_url,callback=self.parse) 是通过提取器类：LinkExtractor，提前到页面所有符合条件的U 阅读全文

posted @ 2022-04-28 17:42 志强爱璇璇阅读(73) 评论(0) 推荐(0) 编辑

scrapy -- 中间件

摘要：#中间件的位置和作用位置：在引擎和下载器之间作用：批量拦截到整个工程所有的请求和响应中间件的py文件：爬虫工程中， middlewares.py就是写中间件的文件，所有的中间件都写在这个文件中 ##一、拦截请求通过请求中间件，把请求信息拦截到，可以修改请求信息后再发送给服务端应用场阅读全文

posted @ 2022-04-28 10:35 志强爱璇璇阅读(105) 评论(0) 推荐(0) 编辑

scrapy -- 五大核心组件

摘要：#scrapy是基于五大核心组件完成数据的爬取和持久化存储的 ##引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) ##调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的阅读全文

posted @ 2022-04-27 23:58 志强爱璇璇阅读(80) 评论(0) 推荐(0) 编辑

scrapy -- 图片数据爬取之ImagesPipeline

摘要：#基于图片数据的爬取，可以用框架中封装好的类，去进行图片的爬取，已经数据持久化存储 ##基于站长素材网站，进行数据的爬取因为该网站会涉及到一个图片懒加载的反爬机制 ###代码示例： #1.爬虫文件.py代码示例： import scrapy from imgsPro.items import 阅读全文

posted @ 2022-04-27 23:37 志强爱璇璇阅读(274) 评论(0) 推荐(0) 编辑

scrapy -- 请求传参

摘要：#为什么要请求传参，使用的场景是什么呢？什么是请求传参：就是在爬虫文件中，定义了多个回调函数时，却想传入同一个管道中，来进行数据存储使用场景：当我们解析的数据不在同一个页面时，但又想把不同页面爬取到的数据传到一个管道里，就需要用到请求传参 #案例：基于BOSS直聘网，爬取不同网页的数据 ##代码阅读全文

posted @ 2022-04-27 23:10 志强爱璇璇阅读(36) 评论(0) 推荐(0) 编辑

scrapy -- 基于Spider的全站数据爬取

摘要：#基于Spider的全站数据爬取 ##什么是全站数据爬取？就是将网站中某板块下的全部页码对应的页面数据进行爬取 ##下面我基于校花网进行全站数据爬取 #1.爬虫文件.py代码示例： import scrapy class XiaohuaSpider(scrapy.Spider): name = 阅读全文

posted @ 2022-04-27 22:23 志强爱璇璇阅读(79) 评论(0) 推荐(0) 编辑

scrapy框架 - 入门

摘要：#一、什么是scrapy框架？爬虫中封装好的一个明星框架。功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式 #二、scrapy框架的基本使用 ##1.环境安装： mac or linux:pip3 install scrapy windows: pip install wheel 阅读全文

posted @ 2022-04-27 22:09 志强爱璇璇阅读(34) 评论(0) 推荐(0) 编辑

04 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜