摘要: from twisted.web.client import getPage from twisted.internet import reactor from twisted.internet import defer url_list = ['http://www.bing.com', 'htt 阅读全文
posted @ 2018-03-26 13:56 老王的农场 阅读(205) 评论(0) 推荐(0) 编辑
摘要: Https访问时有两种情况: 1. 要爬取网站使用的可信任证书(默认支持) DOWNLOADER_HTTPCLIENTFACTORY = "scrapy.core.downloader.webclient.ScrapyHTTPClientFactory" DOWNLOADER_CLIENTCONTEXTFACTORY = "scrapy.core.dow... 阅读全文
posted @ 2018-03-26 10:11 老王的农场 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 代理,需要在环境变量中设置 from scrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware 方式一:使用默认 os.environ { http_proxy:http://root:wowowo@192.168.11.11:... 阅读全文
posted @ 2018-03-26 10:00 老王的农场 阅读(830) 评论(0) 推荐(0) 编辑