随笔分类 -  爬虫-scrapy

摘要:一、命令行运行爬虫 1、运行爬虫(2种方式)运行爬虫$ scrapy crawl spidername 在没有创建项目的情况下运行爬虫$ scrapy runspider spidername .py 二、文件中运行爬虫 1、cmdline方式运行爬虫 # -*- coding: utf-8 -*- 阅读全文
posted @ 2021-11-19 08:51 技术改变命运Andy 阅读(293) 评论(0) 推荐(0) 编辑
摘要:#### 时间:2018-08-12 09:16作者:scrapy中文网阅读: 经过上面,咋们已经了解了scrapy打开页面的细节,那打开之后我们如何获取页面里面的内容?比如获取:http://lab.scrapy.cn 这个页面的标题?或是这个页面的某个段文字?还是类比,人类如何做的呢?肯定是用眼 阅读全文
posted @ 2021-11-17 22:01 技术改变命运Andy 阅读(260) 评论(0) 推荐(0) 编辑
摘要:新版 Scrapy 中 sys.conf.settings 的替代方法 在 scrapy 项目目录下,有个 settings.py 文件,此文件是用来存放爬虫项目的各种配置,比如说 MongoDB 的服务器、端口号、数据库名等配置信息。 既然是配置信息,就需要在别的文件中引用。比如在 setting 阅读全文
posted @ 2021-11-17 21:01 技术改变命运Andy 阅读(49) 评论(0) 推荐(0) 编辑
摘要:### 设置scrapy爬虫开启和关闭时的动作。 pipelines.py ### class DemoPipeline(object): # 开启爬虫时执行,只执行一次 def open_spider(self, spider): # 为spider对象动态添加属性,可以在spider模块中获取该 阅读全文
posted @ 2021-11-12 19:33 技术改变命运Andy 阅读(717) 评论(0) 推荐(0) 编辑
摘要:scrapy发送qq邮件 发送邮件的意义 给scrapy加入发送邮件功能,其目的旨在报错预警,这对运维现有爬虫有着很大的积极意义 或者爬虫爬取结束后,发邮件告诉开发者,hi,任务已经完成了. 我不纠结于是否使用scrapy自带的发送邮件功能,我的目的只是去实现它,用简单直接的方式 发送邮件的方法很多 阅读全文
posted @ 2021-11-02 08:37 技术改变命运Andy 阅读(145) 评论(0) 推荐(0) 编辑
摘要:scrapy数据存进mongodb 第一步,settings.py添加 ITEM_PIPELINES = { # 'scrapy_runklist.pipelines.ScrapyRunklistPipeline': 300, 'scrapy_runklist.pipelines.ScrapyWei 阅读全文
posted @ 2021-11-02 04:44 技术改变命运Andy 阅读(298) 评论(0) 推荐(0) 编辑
摘要:scrapy添加header 第一种,setting里面有一个默认的请求头 USER_AGENT = 'scrapy_runklist (+http://www.yourdomain.com)' DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,app 阅读全文
posted @ 2021-11-02 03:36 技术改变命运Andy 阅读(1959) 评论(0) 推荐(0) 编辑
摘要:结合selenium 原理: scrapy框架只能爬取静态网站。如需爬取动态网站,需要结合着selenium进行js的渲染,才能获取到动态加载的数据。 如何通过selenium请求url,而不再通过下载器Downloader去请求这个url? 方法: 在request对象通过中间件的时候,在中间件内 阅读全文
posted @ 2021-10-17 16:03 技术改变命运Andy 阅读(1491) 评论(1) 推荐(0) 编辑
摘要:总的来说,scrapy框架中设置cookie有三种方式。 第一种: setting文件中设置cookie 当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie 当COOKIES_ENABLED没有注释设置为False的时候scrapy默认使用了settings里面的coo 阅读全文
posted @ 2021-10-17 16:01 技术改变命运Andy 阅读(1215) 评论(0) 推荐(0) 编辑
摘要:四大爬虫管理平台 Crawlab Gerapy Scrapydweb SpiderKeeper scrapyd Crawlab 前端:vue-element-admin 后端:go 不局限于语言和scrapy, 运行 第一步:部署 docker pull tikazyq/crawlab:latest 阅读全文
posted @ 2021-10-11 05:36 技术改变命运Andy 阅读(2610) 评论(0) 推荐(1) 编辑
摘要:#### scrapy对接docker的思路, ### 涉及到四个部分, Scrapy Scrapyd Scrapydweb Docker #### 首先你思考一下,如果只有Scrapyd怎么docker部署? 1、把Scrapyd独立成为一个项目 1.1 编写Scrapyd的配置文件 新建一个sc 阅读全文
posted @ 2021-10-11 03:03 技术改变命运Andy 阅读(625) 评论(0) 推荐(0) 编辑
摘要:#### 服务端安装使用scrapyd 下面的操作是在远程的服务器操作, 1,创建虚拟环境 ,虚拟环境名为sd 2,pip3 install scrapyd 3. 配置 mkdir /etc/scrapyd vim /etc/scrapyd/scrapyd.conf 4,写入一下配置 参考官网:ht 阅读全文
posted @ 2021-10-10 12:57 技术改变命运Andy 阅读(258) 评论(0) 推荐(0) 编辑
摘要:### 深网,是你浏览器,看不到的, 通过链接是访问不到的, 互联网并不是我们看到的只有一层,实际上是分为三层的,分别是表层网(明网),深网和暗网: 表层网(明网):这一层就是我们平时可以随意访问的网络,但是它只是互联网的最表层,大约只占据了4%-20%的内容,搜索引擎就是我们访问明网的关键,不需要 阅读全文
posted @ 2021-10-04 18:41 技术改变命运Andy 阅读(4939) 评论(0) 推荐(0) 编辑
摘要:scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) 参数meta说明: 1)meta是一个字典,主要用于解析函数之间传递值; 2)Request对象接受一个meta参数,即一个 阅读全文
posted @ 2021-09-12 05:57 技术改变命运Andy 阅读(194) 评论(0) 推荐(0) 编辑
摘要:设置delay有起码两个好处, 一个是对被爬对象表示礼貌, 另一个是爬的太快,很多服务器会封ip,或限制访问。 效果:每x秒左右来一个request 先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系 大致给出粗略代码: jianshuspider.py: 阅读全文
posted @ 2021-09-12 05:11 技术改变命运Andy 阅读(945) 评论(0) 推荐(0) 编辑
摘要:#### 做分布式爬虫和搜索引擎对于服务器配置有什么要求? 实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没 阅读全文
posted @ 2021-09-12 05:04 技术改变命运Andy 阅读(1628) 评论(0) 推荐(0) 编辑
摘要:####you-get是一个开源的python第三方模块, 安装 pip install you-get You-Get是GitHub上一个评分很高的python项目,作为一款精巧的命令行应用程序,可以很方便地从web网站下载视频。其下载的视频文件可以直接打开播放,不需要安装特定的网络浏览器,也免去 阅读全文
posted @ 2021-09-12 03:05 技术改变命运Andy 阅读(591) 评论(0) 推荐(0) 编辑