合集-Spider爬虫

摘要:创建一个项目 scrapy startproject myfrist(project_name) 创建一个爬虫 scrapy genspider 爬虫名 爬虫地址 需要安装pillow pip install pillow 报错:twisted.python.failure.Failure Open 阅读全文
posted @ 2023-06-24 18:51 jiang_jiayun 阅读(92) 评论(0) 推荐(0) 编辑
摘要:spider import scrapy class XiaoshuoSpider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名"] start_urls = ["第一章url地址"] def parse(self, response): # 阅读全文
posted @ 2023-06-24 19:02 jiang_jiayun 阅读(152) 评论(0) 推荐(0) 编辑
摘要:创建CrawlSpider scrapy genspider -t crawl 爬虫名 (allowed_url) Rule对象 Rule类与CrawlSpider类都位于scrapy.contrib.spiders模块中 class scrapy.contrib.spiders.Rule( lin 阅读全文
posted @ 2023-06-24 19:17 jiang_jiayun 阅读(43) 评论(0) 推荐(0) 编辑
摘要:LinkExtractor提取链接 创建爬虫 scrapy genspider 爬虫名 域名 -t crawl spider from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, 阅读全文
posted @ 2023-06-24 19:52 jiang_jiayun 阅读(14) 评论(0) 推荐(0) 编辑
摘要:爬虫中请求与响应是最常见的操作,Request对象在爬虫程序中生成并传递到下载器中,后者执行请求并返回一个Response对象 一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response 参数 url(string) - 此请求的网址 callback(c 阅读全文
posted @ 2023-06-24 22:44 jiang_jiayun 阅读(276) 评论(0) 推荐(0) 编辑
摘要:request里面的meta 的使用 import scrapy class Xs2Spider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名"] start_urls = ["url地址"] def parse(self, response 阅读全文
posted @ 2023-06-25 14:14 jiang_jiayun 阅读(54) 评论(0) 推荐(0) 编辑
摘要:import scrapy class BaiduSpider(scrapy.Spider): name = "baidu" allowed_domains = ["baidu.com"] start_urls = ["https://baidu.com"] def parse(self, resp 阅读全文
posted @ 2023-06-25 15:14 jiang_jiayun 阅读(172) 评论(0) 推荐(0) 编辑
摘要:Cookie的使用 import scrapy class CookieSpider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名.com"] start_urls = ["url地址"] def start_requests(self): 阅读全文
posted @ 2023-06-25 15:52 jiang_jiayun 阅读(43) 评论(0) 推荐(0) 编辑
摘要:FormRequest是Request的扩展类,具体常用的功能如下: 请求时,携带参数,如表单数据 从Response中获取表单的数据 FormRequest类可以携带参数主要原因是:增加了新的构造函数的参数formdata。其余的参数与Request类相同. formdata参数类型为:dict 阅读全文
posted @ 2023-06-25 16:14 jiang_jiayun 阅读(219) 评论(0) 推荐(0) 编辑
摘要:Scrapy中下载中间件 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。 通过可下载中间件,可以处理请求之前和请求之后的数据。 每个中间件组件都是一个Python类,它定义了一个或多个以下方法,我们可能需要使用方法如下: process_request() proces 阅读全文
posted @ 2023-06-25 18:06 jiang_jiayun 阅读(56) 评论(0) 推荐(0) 编辑
摘要:Scrapy 中 Downloader 设置UA 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。 通过可下载中间件,可以处理请求之前和请求之后的数据。 如果使用下载中间件需要在Scrapy中的setting.py的配置DOWNLOADER_MIDDLEWARES才可以使 阅读全文
posted @ 2023-06-25 19:17 jiang_jiayun 阅读(82) 评论(0) 推荐(0) 编辑
摘要:from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware class MyProxyMiddleware: def process_request(self, request, spider): # request. 阅读全文
posted @ 2023-06-25 19:30 jiang_jiayun 阅读(26) 评论(0) 推荐(0) 编辑
摘要:下载中间件实战-Scrapy与Selenium结合 有的页面反爬技术比较高端,一时破解不了,这时我们就是可以考虑使用selenium来降低爬取的难度。 问题来了,如何将Scrapy与Selenium结合使用呢? 思考的思路: 只是用Selenium来帮助下载数据。因此可以考虑通过下载中间件来处理这块 阅读全文
posted @ 2023-06-25 20:13 jiang_jiayun 阅读(113) 评论(0) 推荐(0) 编辑
摘要:MongoDB介绍 MongoDB简介 MongoDB 是免费开源的跨平台 NoSQL 数据库,命名源于英文单词 humongous,意思是「巨大无比」,可见开发组对 MongoDB 的定位。 与关系型数据库不同,MongoDB 的数据以类似于 JSON 格式的二进制文档存储: { name: "i 阅读全文
posted @ 2023-06-25 21:47 jiang_jiayun 阅读(22) 评论(0) 推荐(0) 编辑
摘要:Mongo_如果快速学习Mongo MongoDB与RDMS(关系型数据库)比较,如下图所示 RDMS MongoDB database(数据库) database(数据库) table (表) collection( 集合) row( 行) document( BSON 文档) column (列 阅读全文
posted @ 2023-06-25 21:56 jiang_jiayun 阅读(11) 评论(0) 推荐(0) 编辑
摘要:Windows安装与启动MongoDB 下载 企业版-收费 社区版-免费 下载Mongodb https://www.mongodb.com/try/download/community 选择版本 稳定版5.0.9 选择平台 Windows 选择安装包类型 ZIP压缩版 解压即用 启动MongoDB 阅读全文
posted @ 2023-06-26 18:28 jiang_jiayun 阅读(41) 评论(0) 推荐(0) 编辑
摘要:MongoDB通过配置文件管理参数 问题 启动MongoDB时,编写参数太麻烦 解决方案 通过配置文件统一管理 建立配置文件 在MongoDB家目录创建mongo.conf配置文件,编写内容如下: #数据库路径 dbpath=D:\Program Files\mongodb-win32-x86_64 阅读全文
posted @ 2023-06-26 19:55 jiang_jiayun 阅读(34) 评论(0) 推荐(0) 编辑
摘要:Linux安装MongoDB 环境 Linux: Centos7 MongoDB: 5.0.9 下载位置官网:https://www.mongodb.com/try/download/community https://fastdl.mongodb.org/linux/mongodb-linux-x 阅读全文
posted @ 2023-06-26 22:02 jiang_jiayun 阅读(68) 评论(0) 推荐(0) 编辑
摘要:什么是Docker Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。 ogo解释: 标志是一头鲸鱼携带着一堆容器。它正在向您发送这些信息的途中。Docker直译过来是码头工人,然而Docker给人的第一感觉是容器,容器技术英译为Linux Contai 阅读全文
posted @ 2023-06-26 23:48 jiang_jiayun 阅读(42) 评论(0) 推荐(0) 编辑
摘要:为什么要使用Docker Docker容器虚拟化的好处 开发者需要能方便高效构建应用,并且任何时间任何地点都可以获取。 Docker在开发和运维中的优势 对开发和运维( DevOps)人员来说,可能最梦寐以求的就是一次性地创建或配置,可以在任意环境、任意时间让应用正常地运行。而Docker恰恰是可以 阅读全文
posted @ 2023-06-26 23:50 jiang_jiayun 阅读(30) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示