爬虫-scrapy - 随笔分类 - 技术改变命运Andy

Scrapy从脚本运行爬虫的5种方式

摘要：一、命令行运行爬虫 1、运行爬虫（2种方式）运行爬虫$ scrapy crawl spidername 在没有创建项目的情况下运行爬虫$ scrapy runspider spidername .py 二、文件中运行爬虫 1、cmdline方式运行爬虫 # -*- coding: utf-8 -*- 阅读全文

posted @ 2021-11-19 08:51 技术改变命运Andy 阅读(332) 评论(0) 推荐(0) 编辑

Scrapy css选择器提取数据！

摘要：#### 时间：2018-08-12 09:16作者：scrapy中文网阅读：经过上面，咋们已经了解了scrapy打开页面的细节，那打开之后我们如何获取页面里面的内容？比如获取：http://lab.scrapy.cn 这个页面的标题？或是这个页面的某个段文字？还是类比，人类如何做的呢？肯定是用眼阅读全文

posted @ 2021-11-17 22:01 技术改变命运Andy 阅读(310) 评论(0) 推荐(0) 编辑

新版 Scrapy 中 sys.conf.settings 的替代方法

摘要：新版 Scrapy 中 sys.conf.settings 的替代方法在 scrapy 项目目录下，有个 settings.py 文件，此文件是用来存放爬虫项目的各种配置，比如说 MongoDB 的服务器、端口号、数据库名等配置信息。既然是配置信息，就需要在别的文件中引用。比如在 setting 阅读全文

posted @ 2021-11-17 21:01 技术改变命运Andy 阅读(49) 评论(0) 推荐(0) 编辑

Scrapy：pipeline管道的open_spider、close_spider

摘要：### 设置scrapy爬虫开启和关闭时的动作。 pipelines.py ### class DemoPipeline(object): # 开启爬虫时执行，只执行一次 def open_spider(self, spider): # 为spider对象动态添加属性，可以在spider模块中获取该阅读全文

posted @ 2021-11-12 19:33 技术改变命运Andy 阅读(761) 评论(0) 推荐(0) 编辑

scrapy发送qq邮件，使用python模块和使用scrapy自带方法

摘要：scrapy发送qq邮件发送邮件的意义给scrapy加入发送邮件功能，其目的旨在报错预警，这对运维现有爬虫有着很大的积极意义或者爬虫爬取结束后，发邮件告诉开发者，hi，任务已经完成了. 我不纠结于是否使用scrapy自带的发送邮件功能，我的目的只是去实现它，用简单直接的方式发送邮件的方法很多阅读全文

posted @ 2021-11-02 08:37 技术改变命运Andy 阅读(164) 评论(0) 推荐(0) 编辑

scrapy把数据保存到mongodb

摘要：scrapy数据存进mongodb 第一步，settings.py添加 ITEM_PIPELINES = { # 'scrapy_runklist.pipelines.ScrapyRunklistPipeline': 300, 'scrapy_runklist.pipelines.ScrapyWei 阅读全文

posted @ 2021-11-02 04:44 技术改变命运Andy 阅读(311) 评论(0) 推荐(0) 编辑

scrapy添加headers

摘要：scrapy添加header 第一种，setting里面有一个默认的请求头 USER_AGENT = 'scrapy_runklist (+http://www.yourdomain.com)' DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,app 阅读全文

posted @ 2021-11-02 03:36 技术改变命运Andy 阅读(2026) 评论(0) 推荐(0) 编辑

scrapy 结合selenium

摘要：结合selenium 原理： scrapy框架只能爬取静态网站。如需爬取动态网站，需要结合着selenium进行js的渲染，才能获取到动态加载的数据。如何通过selenium请求url，而不再通过下载器Downloader去请求这个url? 方法：在request对象通过中间件的时候，在中间件内阅读全文

posted @ 2021-10-17 16:03 技术改变命运Andy 阅读(1549) 评论(1) 推荐(0) 编辑

scrapy中如何设置应用cookies

摘要：总的来说，scrapy框架中设置cookie有三种方式。第一种： setting文件中设置cookie 当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie 当COOKIES_ENABLED没有注释设置为False的时候scrapy默认使用了settings里面的coo 阅读全文

posted @ 2021-10-17 16:01 技术改变命运Andy 阅读(1290) 评论(0) 推荐(0) 编辑

爬虫部署-3，爬虫管理平台，Crawlab、Gerapy、Scrapydweb，SpiderKeeper，scrapyd，基于上述平台，构思自己的爬虫管理平台

摘要：四大爬虫管理平台 Crawlab Gerapy Scrapydweb SpiderKeeper scrapyd Crawlab 前端：vue-element-admin 后端：go 不局限于语言和scrapy，运行第一步：部署 docker pull tikazyq/crawlab:latest 阅读全文

posted @ 2021-10-11 05:36 技术改变命运Andy 阅读(2936) 评论(0) 推荐(1) 编辑

爬虫部署-2，基于Docker的Scrapy+Scrapyd+Scrapydweb部署

摘要：#### scrapy对接docker的思路， ### 涉及到四个部分， Scrapy Scrapyd Scrapydweb Docker #### 首先你思考一下，如果只有Scrapyd怎么docker部署？ 1、把Scrapyd独立成为一个项目 1.1 编写Scrapyd的配置文件新建一个sc 阅读全文

posted @ 2021-10-11 03:03 技术改变命运Andy 阅读(675) 评论(0) 推荐(0) 编辑

爬虫部署-1，服务端安装使用scrapyd，客户端安装scrapy-client，利用scrapy-client 发布爬虫到远程服务端

摘要：#### 服务端安装使用scrapyd 下面的操作是在远程的服务器操作， 1，创建虚拟环境，虚拟环境名为sd 2，pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 4，写入一下配置参考官网：ht 阅读全文

posted @ 2021-10-10 12:57 技术改变命运Andy 阅读(264) 评论(0) 推荐(0) 编辑

深网简介

摘要：### 深网，是你浏览器，看不到的，通过链接是访问不到的，互联网并不是我们看到的只有一层，实际上是分为三层的，分别是表层网(明网)，深网和暗网：表层网(明网)：这一层就是我们平时可以随意访问的网络，但是它只是互联网的最表层，大约只占据了4%-20%的内容，搜索引擎就是我们访问明网的关键，不需要阅读全文

posted @ 2021-10-04 18:41 技术改变命运Andy 阅读(5183) 评论(0) 推荐(0) 编辑

scrapy框架使用.Request使用meta传递数据，以及deepcopy的使用，这种三层for循环，就会有deepcopy的问题，

摘要：scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) 参数meta说明： 1）meta是一个字典，主要用于解析函数之间传递值； 2）Request对象接受一个meta参数，即一个阅读全文

posted @ 2021-09-12 05:57 技术改变命运Andy 阅读(203) 评论(0) 推荐(0) 编辑

scrapy download delay, CONCURRENT_REQUESTS

摘要：设置delay有起码两个好处，一个是对被爬对象表示礼貌，另一个是爬的太快，很多服务器会封ip，或限制访问。效果：每x秒左右来一个request 先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系大致给出粗略代码： jianshuspider.py：阅读全文

posted @ 2021-09-12 05:11 技术改变命运Andy 阅读(966) 评论(0) 推荐(0) 编辑

分布式爬虫部署，爬虫需要什么样的服务器配置，现在爬虫岗位都要会这个

摘要：#### 做分布式爬虫和搜索引擎对于服务器配置有什么要求？实验室要做主题爬虫，附带简单的搜索查询功能，现在要租用10~20台服务器，不知道什么配置好。我们之前使用了三台服务器（租用的阿里云），用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时，第三层达到了40万用了3天还没阅读全文

posted @ 2021-09-12 05:04 技术改变命运Andy 阅读(1757) 评论(0) 推荐(0) 编辑

scrapy框架使用-下载视频，使用you-get模块来下载视频

摘要：####you-get是一个开源的python第三方模块，安装 pip install you-get You-Get是GitHub上一个评分很高的python项目，作为一款精巧的命令行应用程序，可以很方便地从web网站下载视频。其下载的视频文件可以直接打开播放，不需要安装特定的网络浏览器，也免去阅读全文

posted @ 2021-09-12 03:05 技术改变命运Andy 阅读(613) 评论(0) 推荐(0) 编辑

技术改变命运Andy

随笔分类 - 爬虫-scrapy