摘要:
首先来说LangChain是什么?不了解的可以点击下面的链接来查看下。 LangChain入门指南_故里_的博客-CSDN博客 然后在介绍一下星火认知大模型相关: 讯飞星火认知大模型感兴趣的小伙伴可以了解一下,国内比较成熟的类GPT(我自己定义的,也不知道对不对)模型。 说一下大概需求,首先我是要用 阅读全文
摘要:
中间件: 概念和django的中间件概念很相似,当有响应由下载器传到引擎的时候都会先经过中间件,而当请求从引擎到下载器的时候也会先经过中间件,这样一来我们就可以在中间件处对请求和响应进行我们想要效果的修改。(虽然在spider与引擎中间同样存在中间件,但是我们更多的是使用下载中间件) (1)引擎将请 阅读全文
摘要:
其实这次的内容我是想放在上一篇的博文中的,但是上次犯懒了,就放在这里了奥。 基于mysql持久化操作: 将爬取数据写入文件这种情况还是少见的,因为文件无论是内存占用还是读写速度都存在一定的瑕疵,所以我们更多的是操作数据库。因为items对象已经准备好了所以我们只需要进行pipeline管道更改就可以 阅读全文
摘要:
scrapy框架 相对于很多人来说request并不能满足他们的需求或者说需求太多,导致代码过于复杂,本着简便众人的思想python大牛们携万物可封装的理念为我们封装了scrapy高性能异步爬虫框架,让我们使用起来更加得心应手,在这里我们将对scrapy进行简单地介绍,过于底层的东西我们不去探讨。 阅读全文
摘要:
异步爬虫 异步是在同一时间点多个任务共同进行,爬虫是抓取互联网数据,那么异步和爬虫能碰撞出怎样的火花? 提到异步后端开发的朋友们的反应肯定是线程协程等一系列概念,那么首先让我们介绍基于多线程的爬虫。 1.基于多线程的爬虫 既然我们要开启多线程那么就不得不用到线程池了,接下来我将用一个实例简单地介绍多 阅读全文
摘要:
今天我们来介绍几种反爬机制及其应对方法 Cookie: 在互联网数据传输中http协议是无状态的,每次连接都是新连接,那么有些网站可以记录用户状态是如何做到的呢?大部分都是使用cookie记录用户相关的用户名密码以校验用户状态,首先实现一个小案例吧。 目的地址:雪球网 爬取内容:动态加载的数据(也就 阅读全文
摘要:
数据解析 对于爬取到数据我们已经有了一定的了解,那么我们最终无论是要将这些数据可视化还是进行统一某种算法的数据分析,我们不可避免的都要将数据持久化存储(无论是文件形式还是数据库形式)可在这之前我们需要对数据进行进一步处理,因为我们爬取的页面数据有很大一部分是对我们来说没有什么用处的,所以在持久化之前 阅读全文
摘要:
request简介 python 爬虫最基础的实现就是由内部的request模块完成的,模块集成了发送网络请求,获取网络数据等功能,接下来就来对request来进行简单地了解 首先说一下什么叫做http,较为官方的解释是超文本传输协议,那么超文本传输协议究竟又是什么东西? HTTP与HTTPS 其实 阅读全文
摘要:
1.请求钩子 在客户端和服务器交互的过程中,我们有些工作总是需要在一开始或者结束的时候进行,例如: 1.请求开始的时候建立数据库连接 2.请求开始时根据需求进行权限校验 3.请求结束的时指定数据的交互格式 为了避免写重复功能,flask提供了四种请求钩子供我们使用 before_first_requ 阅读全文
摘要:
基于flask框架的掌上商城开发,移动端app与后端服务器相结合,此篇为前置内容准备。 1.flask框架 因为项目整体是基于flask这款轻量级框架搭建的,所以先简易介绍一下flask框架,Flask诞生于2010年,是Armin ronacher(人名)用 Python 语言基于 Werkzeu 阅读全文