随笔分类 -  Scrapy

Scrapy of Python: An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way.
摘要:Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步。 本文展示使用在 Scrapy项目内、项目外scrapy shell命令抓取知乎首页的初步情况,重要的一点是,在项目内抓取时,没有response可用。 阅读全文
posted @ 2018-08-20 09:45 快乐的欧阳天美1114 阅读(1140) 评论(0) 推荐(0) 编辑
摘要:在使用scrapy shell测试某网站时,其返回400 Bad Request,那么,更改User-Agent请求头信息再试。 DEBUG: Crawled (400) <GET https://www.某网站.com> (referer: None) 可是,怎么更改呢? 使用scrapy she 阅读全文
posted @ 2018-07-15 13:19 快乐的欧阳天美1114 阅读(1559) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 提示:此文存在问题,真正测试, 请勿阅读, 07-14 14:26更新: 经过两个多小时的测试,发现此问题的原因是 昨天编写爬虫程序后,给爬虫程序添加了下面的属性: download_timeout = 20 此属 阅读全文
posted @ 2018-07-14 11:07 快乐的欧阳天美1114 阅读(2749) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4,PyMongo 3.7.0,MongoDB 3.6.3,Scrapy 1.5.0, 前言 在Python中,使用PyMongo访问MongodB,作者Mike Dirolf,维护人员Bernie Hackett <bernie@mongodb 阅读全文
posted @ 2018-07-10 11:20 快乐的欧阳天美1114 阅读(767) 评论(0) 推荐(0) 编辑
摘要:上月底开始学习Scrapy爬虫框架,看了一些中文文档,讲应用、讲基础的,对其有一些了解了。终于在28日打开Scrapy的官网,并制作了其文档的思维导图,进而开启了其文档的阅读之旅。 本文展示了从6月28日到7月3日每天阅读过的Scrapy文档,记录其整个过程和读后感。 不过,这是第一次做这样的记录, 阅读全文
posted @ 2018-07-04 14:52 快乐的欧阳天美1114 阅读(216) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了。Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之scrapy runspider(全局命令) -命令行工具之scrapy crawl(项目级命令) - 阅读全文
posted @ 2018-07-04 13:32 快乐的欧阳天美1114 阅读(52597) 评论(6) 推荐(5) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在Scrapy中,建立爬虫程序或项目的方式有两种(在孤读过Scrapy的大部分文档后): 1.继承官方Spider类(5个) 2.命令行工具scrapy genspider(4个) 方式一:继承官方Spider类 阅读全文
posted @ 2018-07-04 09:44 快乐的欧阳天美1114 阅读(2682) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 上午看了Scrapy的Spiders官文,并按照其中的SitemapSpider的示例练习,发现官文的示例存在问题——SitemapSpider下的Spider类没有name属性。 这导致孤编写的测试程序也没有na 阅读全文
posted @ 2018-07-01 13:17 快乐的欧阳天美1114 阅读(462) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4,virtualenv 16.0.0,Scrapy 1.5.0, 在最初使用Scrapy时,使用编辑器或IDE手动编写模块来创建爬虫(Spider)程序,然后使用scrapy crawl命令执行Spider。 这种方式很初级、繁琐,不适合更大型 阅读全文
posted @ 2018-06-30 23:00 快乐的欧阳天美1114 阅读(706) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4,virtualenv 16.0.0,Scrapy 1.5.0, 使用scrapy命令行工具建立了爬虫项目(startproject),并使用scrapy genspider建立了爬虫,用于抓取某中文门户网站首页的 新闻标题及其链接,全程都在虚 阅读全文
posted @ 2018-06-30 16:45 快乐的欧阳天美1114 阅读(2098) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版,Python 3.6.4, virtualenv用来提供一个应用程序独立的 运行环境,这个独立是相对于系统的Python运行环境而言,开发者可以在virtualenv建立的运行环境中安装各种Python的包以及运行自己的应用程序,而这些操作都不会对系统的Python运 阅读全文
posted @ 2018-06-26 16:50 快乐的欧阳天美1114 阅读(596) 评论(0) 推荐(0) 编辑
摘要:Windows 10家庭中文版本,Python 3.6.4,Scrapy 1.5.0, Scrapy已经安装很久了,前面也看了不少Scrapy的资料,自己尝试使其抓取微博的数据时,居然连登录页面(首页)都进不去,后又在前几日补充学习了re、requests、urllib3、bs4.Beautiful 阅读全文
posted @ 2018-06-26 10:21 快乐的欧阳天美1114 阅读(461) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示