Scrapy - 随笔分类 - 快乐的欧阳天美1114

在Scrapy项目【内外】使用scrapy shell命令抓取某网站首页的初步情况

摘要：Windows 10家庭中文版，Python 3.6.3，Scrapy 1.5.0，时隔一月，再次玩Scrapy项目，希望这次可以玩的更进一步。本文展示使用在 Scrapy项目内、项目外scrapy shell命令抓取知乎首页的初步情况，重要的一点是，在项目内抓取时，没有response可用。阅读全文

posted @ 2018-08-20 09:45 快乐的欧阳天美1114 阅读(1161) 评论(0) 推荐(0)

scrapy shell命令的【选项】简介

摘要：在使用scrapy shell测试某网站时，其返回400 Bad Request，那么，更改User-Agent请求头信息再试。 DEBUG: Crawled (400) <GET https://www.某网站.com> (referer: None) 可是，怎么更改呢？使用scrapy she 阅读全文

posted @ 2018-07-15 13:19 快乐的欧阳天美1114 阅读(1577) 评论(0) 推荐(0)

Scrapy项目之User timeout caused connection failure（异常记录）

摘要：Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，提示：此文存在问题，真正测试，请勿阅读， 07-14 14:26更新：经过两个多小时的测试，发现此问题的原因是昨天编写爬虫程序后，给爬虫程序添加了下面的属性： download_timeout = 20 此属阅读全文

posted @ 2018-07-14 11:07 快乐的欧阳天美1114 阅读(2793) 评论(0) 推荐(0)

使用PyMongo访问需要认证的MongoDB

摘要：Windows 10家庭中文版，Python 3.6.4，PyMongo 3.7.0，MongoDB 3.6.3，Scrapy 1.5.0，前言在Python中，使用PyMongo访问MongodB，作者Mike Dirolf，维护人员Bernie Hackett <bernie@mongodb 阅读全文

posted @ 2018-07-10 11:20 快乐的欧阳天美1114 阅读(790) 评论(0) 推荐(0)

孤的Scrapy官文阅读进程

摘要：上月底开始学习Scrapy爬虫框架，看了一些中文文档，讲应用、讲基础的，对其有一些了解了。终于在28日打开Scrapy的官网，并制作了其文档的思维导图，进而开启了其文档的阅读之旅。本文展示了从6月28日到7月3日每天阅读过的Scrapy文档，记录其整个过程和读后感。不过，这是第一次做这样的记录，阅读全文

posted @ 2018-07-04 14:52 快乐的欧阳天美1114 阅读(230) 评论(0) 推荐(0)

Scrapy：运行爬虫程序的方式

摘要：Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，在创建了爬虫程序后，就可以运行爬虫程序了。Scrapy中介绍了几种运行爬虫程序的方式，列举如下： -命令行工具之scrapy runspider（全局命令） -命令行工具之scrapy crawl（项目级命令） - 阅读全文

posted @ 2018-07-04 13:32 快乐的欧阳天美1114 阅读(52939) 评论(6) 推荐(5)

Scrapy：创建爬虫程序的方式

摘要：Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，在Scrapy中，建立爬虫程序或项目的方式有两种（在孤读过Scrapy的大部分文档后）： 1.继承官方Spider类（5个） 2.命令行工具scrapy genspider（4个）方式一：继承官方Spider类阅读全文

posted @ 2018-07-04 09:44 快乐的欧阳天美1114 阅读(2729) 评论(0) 推荐(0)

Scrapy的【SitemapSpider】的【官网示例】没有name属性

摘要：Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，上午看了Scrapy的Spiders官文，并按照其中的SitemapSpider的示例练习，发现官文的示例存在问题——SitemapSpider下的Spider类没有name属性。这导致孤编写的测试程序也没有na 阅读全文

posted @ 2018-07-01 13:17 快乐的欧阳天美1114 阅读(484) 评论(0) 推荐(0)

Scrapy命令行工具简介

摘要：Windows 10家庭中文版，Python 3.6.4，virtualenv 16.0.0，Scrapy 1.5.0，在最初使用Scrapy时，使用编辑器或IDE手动编写模块来创建爬虫（Spider）程序，然后使用scrapy crawl命令执行Spider。这种方式很初级、繁琐，不适合更大型阅读全文

posted @ 2018-06-30 23:00 快乐的欧阳天美1114 阅读(747) 评论(0) 推荐(0)

使用Scrapy命令行工具【导出JSON文件】时编码设置

摘要：Windows 10家庭中文版，Python 3.6.4，virtualenv 16.0.0，Scrapy 1.5.0，使用scrapy命令行工具建立了爬虫项目（startproject），并使用scrapy genspider建立了爬虫，用于抓取某中文门户网站首页的新闻标题及其链接，全程都在虚阅读全文

posted @ 2018-06-30 16:45 快乐的欧阳天美1114 阅读(2124) 评论(0) 推荐(0)

安装virtualenv（Scrapy）

摘要：Windows 10家庭中文版，Python 3.6.4， virtualenv用来提供一个应用程序独立的运行环境，这个独立是相对于系统的Python运行环境而言，开发者可以在virtualenv建立的运行环境中安装各种Python的包以及运行自己的应用程序，而这些操作都不会对系统的Python运阅读全文

posted @ 2018-06-26 16:50 快乐的欧阳天美1114 阅读(618) 评论(0) 推荐(0)

Scrapy官网程序执行示例

摘要：Windows 10家庭中文版本，Python 3.6.4，Scrapy 1.5.0， Scrapy已经安装很久了，前面也看了不少Scrapy的资料，自己尝试使其抓取微博的数据时，居然连登录页面（首页）都进不去，后又在前几日补充学习了re、requests、urllib3、bs4.Beautiful 阅读全文

posted @ 2018-06-26 10:21 快乐的欧阳天美1114 阅读(486) 评论(0) 推荐(0)

`三一三`

用问题刺激思想，用执行消灭懒散，

随笔分类 - Scrapy

公告