摘要: 组件以及执行流程 -引擎找到要执行爬虫,并执行爬虫的start_requests 方法, 并得到一个迭代器。 -迭代器循环时会获取Request对象,而Request对象中封装了要访问的URL和回调函数。 -将所有的Request对象(任务)放到调试器中,用于以后被下载器下载 -下载器云调试器中获取 阅读全文
posted @ 2020-06-14 15:48 高汤 阅读(217) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter from scrapy.http.cookies import Cooki 阅读全文
posted @ 2020-06-13 23:35 高汤 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 自定义proxy.py import base64 import random from urllib.parse import unquote, urlunparse from urllib.request import _parse_proxy from scrapy.utils.python 阅读全文
posted @ 2020-06-13 23:20 高汤 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 深度 配置文件: # 限制深度 DEPTH_LIMIT = 3 阅读全文
posted @ 2020-06-11 22:30 高汤 阅读(217) 评论(0) 推荐(0) 编辑
摘要: import scrapy from scrapy.http.cookies import CookieJar from scrapy.http import Request from urllib.parse import urlencode class ChoutiSpider(scrapy.S 阅读全文
posted @ 2020-06-11 22:28 高汤 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 简单的数据导出与导入(简单的迁移): 1 数据导出 django 项目提供了一个导出的方法 python manage.py dumpdata, 不指定 appname 时默认为导出所有的app python manage.py dumpdata [appname] > appname_data.j 阅读全文
posted @ 2020-06-11 17:49 高汤 阅读(2200) 评论(0) 推荐(0) 编辑
摘要: dupefilter对访问的url做去重 第一步: 在爬虫文件中chouti.py中 import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter class ChoutiSpider 阅读全文
posted @ 2020-06-10 23:01 高汤 阅读(231) 评论(0) 推荐(0) 编辑
摘要: uwsgi.ini [uwsgi] #使用nginx连接时使用 #socket=127.0.0.1:8080 #直接做web服务器使用 http=127.0.0.1:80 #项目目录 chdir=/root/shell_mac #项目uwsgi.py文件目录,相对于项目目录 wsgi-file=sh 阅读全文
posted @ 2020-06-09 17:07 高汤 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 内置的类方法和内置的函数之间有着千丝万缕的联系 双下方法 obj.__str__ str(obj) obj.__repr__ repr(obj) class A: def __str__(self): return 'xxxxx' def __repr__(self): return 'xxxxx' 阅读全文
posted @ 2020-06-09 00:50 高汤 阅读(121) 评论(0) 推荐(0) 编辑
摘要: git初始化的一些配置 方法一、 先将仓库clone到本地,修改后再push到码云的仓库仓库 $ git clone https://gitee.com/用户个性地址/HelloGitee.git #将远程仓库克隆到本地 在克隆过程中,如果仓库是一个私有仓库,将会要求用户输入码云的账号和密码。按照提 阅读全文
posted @ 2020-06-08 22:57 高汤 阅读(1065) 评论(0) 推荐(0) 编辑