2021年3月9日

scrapy 创建爬虫项目失败

摘要: 1. 遇到ImortError:DLL load failed:找不到模块问题,折腾了一天查了网上各种资料,下了各种各样的包,最后发现还是环境没有配到位,我只配了C:\ProgramData\Anaconda3\Scripts; 解决办法:这三个路径都要配到PATH中。 2. 依次在cmd中输入以下 阅读全文

posted @ 2021-03-09 22:54 Plyc 阅读(320) 评论(0) 推荐(0) 编辑

增量式爬虫

摘要: 一.增量式爬虫 概念:通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。 如何进行增量式的爬取工作: 在发送请求之前判断这个URL是不是之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 写入存储介质时判断内容是不是已经在介质中存在 分析: 不难发现,其实增量爬取的核心是 阅读全文

posted @ 2021-03-09 21:17 Plyc 阅读(96) 评论(0) 推荐(0) 编辑

Scrapy框架(CrawlSpider)

摘要: 一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到 阅读全文

posted @ 2021-03-09 21:13 Plyc 阅读(85) 评论(0) 推荐(0) 编辑

scrapy中selenium的应用

摘要: 重写爬虫文件的构造方法,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次) 重写爬虫文件的closed(self,spider)方法,在其内部关闭浏览器对象。该方法是在爬虫结束时被调用 重写下载中间件的process_response方法,让该方法对响应对象进行拦 阅读全文

posted @ 2021-03-09 16:12 Plyc 阅读(97) 评论(0) 推荐(0) 编辑

UA池和代理池

摘要: 二.UA池:User-Agent池 - 作用:尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程: 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件 代码展示: #导包 from scrapy.contrib. 阅读全文

posted @ 2021-03-09 15:57 Plyc 阅读(275) 评论(0) 推荐(0) 编辑

scrapy框架的日志等级和请求传参和配置文件

摘要: 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: ERROR : 一般错误 WARNING : 警告 INFO : 一般的信息 DEBUG : 调试信息 - 设置日志信息指定输 阅读全文

posted @ 2021-03-09 15:37 Plyc 阅读(125) 评论(0) 推荐(0) 编辑

scrapy框架之递归解析和post请求

摘要: 今日详情 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。 实现方案: 1.将每一个页码对应的url 阅读全文

posted @ 2021-03-09 15:27 Plyc 阅读(35) 评论(0) 推荐(0) 编辑

scrapy框架持久化存储 以及响应参数

摘要: 来看一下response对象中的一些基本方法/属性: 属性描述 url 获取本次request请求的url地址 status 获取本次request请求的状态码 body 获取HTML响应正文,返回的是bytes格式内容,因此如果请求的是图片,可直接拿到它进行写入 text 获取HTML响应正文,返 阅读全文

posted @ 2021-03-09 15:01 Plyc 阅读(73) 评论(0) 推荐(0) 编辑

scrapy框架

摘要: 安装 Linux: pip3 install scrapy Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载并安装twisted的wheel文件,CP对应 阅读全文

posted @ 2021-03-09 14:46 Plyc 阅读(66) 评论(0) 推荐(0) 编辑

导航