乐之之 - 博客园

scrapy爬虫框架（六）Item Pipeline的使用

摘要： Item Pipeline即项目管道，它的调用发生在Spider产生Item之后。当Spider解析完Response，Item就会被Engine传递到Item Pipeline，被定义的Item Pipeline组件会顺次被调用，完成一连串的处理过程，比如数据清洗、存储等。 Item Pipeli 阅读全文

posted @ 2023-04-07 14:19 乐之之阅读(1311) 评论(0) 推荐(0)

pycharm中配置MongoDB数据库出现未找到驱动程序类 'com.dbschema.MongoJdbcDriver' (view)？

摘要：之前重新装了一下pycharm，发现MongoDB数据库连接时发生了错误。具体错误：未找到驱动程序类 'com.dbschema.MongoJdbcDriver' (view)。这怎么解决呢？其实很简单，在驱动程序中选一个版本进行下载就好了。步骤如下： 1、找到驱动程序，点击MongoDB，再点击阅读全文

posted @ 2023-04-06 21:49 乐之之阅读(1231) 评论(0) 推荐(0)

Mysql数据库基础（2）

摘要：一、关系将实体与实体的关系，反应到最终数据库表的设计上来：将关系分成三种：一对一一对多（多对一）多对多所有的关系都是指的表与表之间的关系。 1、一对一一对一：一张表的一条记录一定只能与另外一张表的一条记录进行对应；反之亦然。学生表：姓名，性别，年龄，身高，体重，婚姻状况，籍贯，家庭住阅读全文

posted @ 2023-04-05 23:42 乐之之阅读(84) 评论(0) 推荐(0)

scrapy爬虫框架（五）Spider Middleware

摘要： Spider Middleware，中文可以翻译为爬虫中间件，但我个人认为英文的叫法更为合适。它是处于Spider 和 Engine 之间的处理模块。当 Downloader 生成 Response 之后，Response 会被发送给 Spider,在发送给 Spider 之前，Response 会阅读全文

posted @ 2023-04-05 00:18 乐之之阅读(355) 评论(0) 推荐(0)

scrapy爬虫框架（四）Downloader Middleware的使用

摘要： Downloader Middleware是处于Engine和Downloader之间的模块，其重要作用就是处理schduler调度器发送到Engine的Request和经过Downloader响应后的response返回至Engine过程中的处理。如图所示：也就是说，Downloader Mid 阅读全文

posted @ 2023-04-03 15:23 乐之之阅读(397) 评论(0) 推荐(0)

Mysql数据库基础（1）

摘要：一、数据库的历史 1、简介数据库技术，是之前60年代开始兴起的一门信息管理自动化的新兴学科，是计算机科学中的一个重要分支。随着计算机应用的不断发展，数据处理越来越占主导地位，数据库技术的应用也越来越广泛。数据管理是数据库的核心任务，内容包括对数据的分类、组织、编码、存储、检索和维护，数据库是以一定阅读全文

posted @ 2023-04-02 18:08 乐之之阅读(42) 评论(0) 推荐(0)

scrapy爬虫框架（三）Spider的使用

摘要：在前面已经简单介绍了spider的基础用法，那么今天我们来详细了解一下Spider的具体用法。一、Spider的运行流程 spider是scrapy框架中最核心的组件，其定义了爬取网站的逻辑和解析方式，而spider主要做两件事情：定义爬取网站的动作。分析爬取下来的网页。那么他的运行流程主要阅读全文

posted @ 2023-03-31 19:59 乐之之阅读(1089) 评论(0) 推荐(1)

scrapy爬虫框架（二）scrapy中Selector的使用

摘要：在scrapy框架前，相信大家或多或少的已经了解了一些网页数据解析方法，如：xpath、bs4、正则表达式等，但是在scrapy框架中也有一个内置的数据提取方法--Selector。在这里我们就先简单介绍一下Selector在scrapy中的运用及常用方法。为了方便示例，我们以官方文档中的示例页面阅读全文

posted @ 2023-03-31 10:48 乐之之阅读(458) 评论(0) 推荐(0)

scrapy爬虫框架（一）入门介绍

摘要：在爬虫过程中，每次写一个爬虫程序时，都会从研究网页信息基本情况，所用到的库和方法。每次写基础代码时，都会略显繁琐。之前我也曾想过自己写一个基础的框架，从请求到响应再到解析和数据的保存。实现代码复用率，但发现其实并不用自己再造一遍轮子，因为市面上已经有了强大的异步框架--scrapy。我们只需要在此框阅读全文

posted @ 2023-03-29 18:11 乐之之阅读(225) 评论(0) 推荐(0)

常见反爬措施--动态字体反爬

摘要：通过对数据的获取，我们已经掌握了一些简单的反爬措施，但是获取到的数据都是加密的，无法直接读取其中的信息。那么我们该怎么解决呢？只有通过对加密字体的解密，再将解密字体和加密字体进行replace即可。现在，我们还是以实习僧为例，来看一下其中的解密流程是怎样的。一、解密前的了解。首先，观察到数据改阅读全文

posted @ 2023-03-26 19:14 乐之之阅读(498) 评论(0) 推荐(0)

公告