Spider爬虫- - jiang_jiayun

Scrapy_ImagePipeline保存图片

摘要：创建一个项目 scrapy startproject myfrist(project_name) 创建一个爬虫 scrapy genspider 爬虫名爬虫地址需要安装pillow pip install pillow 报错：twisted.python.failure.Failure Open 阅读全文

posted @ 2023-06-24 18:51 jiang_jiayun 阅读(92) 评论(0) 推荐(0) 编辑

Scrapy 保存数据案例-小说保存

摘要：spider import scrapy class XiaoshuoSpider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名"] start_urls = ["第一章url地址"] def parse(self, response): # 阅读全文

posted @ 2023-06-24 19:02 jiang_jiayun 阅读(152) 评论(0) 推荐(0) 编辑

Scrapy 中 CrawlSpider 使用(一)

摘要：创建CrawlSpider scrapy genspider -t crawl 爬虫名 (allowed_url) Rule对象 Rule类与CrawlSpider类都位于scrapy.contrib.spiders模块中 class scrapy.contrib.spiders.Rule( lin 阅读全文

posted @ 2023-06-24 19:17 jiang_jiayun 阅读(43) 评论(0) 推荐(0) 编辑

Scrapy 中 CrawlSpider 使用(二)

摘要：LinkExtractor提取链接创建爬虫 scrapy genspider 爬虫名域名 -t crawl spider from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, 阅读全文

posted @ 2023-06-24 19:52 jiang_jiayun 阅读(14) 评论(0) 推荐(0) 编辑

Scrapy 中 Request 的使用

摘要：爬虫中请求与响应是最常见的操作，Request对象在爬虫程序中生成并传递到下载器中，后者执行请求并返回一个Response对象一个Request对象表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response 参数 url（string） - 此请求的网址 callback（c 阅读全文

posted @ 2023-06-24 22:44 jiang_jiayun 阅读(276) 评论(0) 推荐(0) 编辑

Scrapy_Request对象meta演示

摘要：request里面的meta 的使用 import scrapy class Xs2Spider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名"] start_urls = ["url地址"] def parse(self, response 阅读全文

posted @ 2023-06-25 14:14 jiang_jiayun 阅读(54) 评论(0) 推荐(0) 编辑

Scrapy_Request对象dont_filter演示

摘要：import scrapy class BaiduSpider(scrapy.Spider): name = "baidu" allowed_domains = ["baidu.com"] start_urls = ["https://baidu.com"] def parse(self, resp 阅读全文

posted @ 2023-06-25 15:14 jiang_jiayun 阅读(172) 评论(0) 推荐(0) 编辑

Scrapy_Request对象Cookie的演示

摘要：Cookie的使用 import scrapy class CookieSpider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名.com"] start_urls = ["url地址"] def start_requests(self): 阅读全文

posted @ 2023-06-25 15:52 jiang_jiayun 阅读(43) 评论(0) 推荐(0) 编辑

Scrapy_FormRequest对象的使用

摘要：FormRequest是Request的扩展类，具体常用的功能如下：请求时，携带参数，如表单数据从Response中获取表单的数据 FormRequest类可以携带参数主要原因是：增加了新的构造函数的参数formdata。其余的参数与Request类相同. formdata参数类型为:dict 阅读全文

posted @ 2023-06-25 16:14 jiang_jiayun 阅读(219) 评论(0) 推荐(0) 编辑

Scrapy中下载中间件

摘要：Scrapy中下载中间件下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。通过可下载中间件，可以处理请求之前和请求之后的数据。每个中间件组件都是一个Python类，它定义了一个或多个以下方法，我们可能需要使用方法如下： process_request() proces 阅读全文

posted @ 2023-06-25 18:06 jiang_jiayun 阅读(56) 评论(0) 推荐(0) 编辑

Scrapy_下载中间件设置UserAgent

摘要：Scrapy 中 Downloader 设置UA 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。通过可下载中间件，可以处理请求之前和请求之后的数据。如果使用下载中间件需要在Scrapy中的setting.py的配置DOWNLOADER_MIDDLEWARES才可以使阅读全文

posted @ 2023-06-25 19:17 jiang_jiayun 阅读(82) 评论(0) 推荐(0) 编辑

Scrapy 中 Downloader 设置代理

摘要：from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware class MyProxyMiddleware: def process_request(self, request, spider): # request. 阅读全文

posted @ 2023-06-25 19:30 jiang_jiayun 阅读(26) 评论(0) 推荐(0) 编辑

下载中间件实战-Scrapy与Selenium结合

摘要：下载中间件实战-Scrapy与Selenium结合有的页面反爬技术比较高端，一时破解不了，这时我们就是可以考虑使用selenium来降低爬取的难度。问题来了，如何将Scrapy与Selenium结合使用呢？思考的思路：只是用Selenium来帮助下载数据。因此可以考虑通过下载中间件来处理这块阅读全文

posted @ 2023-06-25 20:13 jiang_jiayun 阅读(113) 评论(0) 推荐(0) 编辑

MongoDB介绍

摘要：MongoDB介绍 MongoDB简介 MongoDB 是免费开源的跨平台 NoSQL 数据库，命名源于英文单词 humongous，意思是「巨大无比」，可见开发组对 MongoDB 的定位。与关系型数据库不同，MongoDB 的数据以类似于 JSON 格式的二进制文档存储： { name: "i 阅读全文

posted @ 2023-06-25 21:47 jiang_jiayun 阅读(22) 评论(0) 推荐(0) 编辑

Mongo_如果快速学习Mongo

摘要：Mongo_如果快速学习Mongo MongoDB与RDMS(关系型数据库)比较，如下图所示 RDMS MongoDB database（数据库） database（数据库） table （表） collection（集合） row（行） document（ BSON 文档） column （列阅读全文

posted @ 2023-06-25 21:56 jiang_jiayun 阅读(11) 评论(0) 推荐(0) 编辑

Windows安装与启动MongoDB

摘要：Windows安装与启动MongoDB 下载企业版-收费社区版-免费下载Mongodb https://www.mongodb.com/try/download/community 选择版本稳定版5.0.9 选择平台 Windows 选择安装包类型 ZIP压缩版解压即用启动MongoDB 阅读全文

posted @ 2023-06-26 18:28 jiang_jiayun 阅读(41) 评论(0) 推荐(0) 编辑

MongoDB通过配置文件管理参数

摘要：MongoDB通过配置文件管理参数问题启动MongoDB时，编写参数太麻烦解决方案通过配置文件统一管理建立配置文件在MongoDB家目录创建mongo.conf配置文件，编写内容如下： #数据库路径 dbpath=D:\Program Files\mongodb-win32-x86_64 阅读全文

posted @ 2023-06-26 19:55 jiang_jiayun 阅读(34) 评论(0) 推荐(0) 编辑

Linux安装MongoDB

摘要：Linux安装MongoDB 环境 Linux: Centos7 MongoDB: 5.0.9 下载位置官网：https://www.mongodb.com/try/download/community https://fastdl.mongodb.org/linux/mongodb-linux-x 阅读全文

posted @ 2023-06-26 22:02 jiang_jiayun 阅读(68) 评论(0) 推荐(0) 编辑

什么是Docker

摘要：什么是Docker Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从 Apache2.0 协议开源。 ogo解释：标志是一头鲸鱼携带着一堆容器。它正在向您发送这些信息的途中。Docker直译过来是码头工人，然而Docker给人的第一感觉是容器，容器技术英译为Linux Contai 阅读全文

posted @ 2023-06-26 23:48 jiang_jiayun 阅读(42) 评论(0) 推荐(0) 编辑

为什么要使用Docker

摘要：为什么要使用Docker Docker容器虚拟化的好处开发者需要能方便高效构建应用，并且任何时间任何地点都可以获取。 Docker在开发和运维中的优势对开发和运维( DevOps)人员来说，可能最梦寐以求的就是一次性地创建或配置，可以在任意环境、任意时间让应用正常地运行。而Docker恰恰是可以阅读全文

posted @ 2023-06-26 23:50 jiang_jiayun 阅读(30) 评论(0) 推荐(0) 编辑

jiangjiayun

合集-Spider爬虫

公告

搜索

常用链接

我的标签

合集

随笔档案

阅读排行榜

推荐排行榜