高汤 - 博客园

2020年6月14日

摘要：组件以及执行流程 -引擎找到要执行爬虫，并执行爬虫的start_requests 方法，并得到一个迭代器。 -迭代器循环时会获取Request对象，而Request对象中封装了要访问的URL和回调函数。 -将所有的Request对象（任务）放到调试器中，用于以后被下载器下载 -下载器云调试器中获取阅读全文

posted @ 2020-06-14 15:48 高汤阅读(217) 评论(0) 推荐(0) 编辑

2020年6月13日

起始url的调度原理

摘要： # -*- coding: utf-8 -*- import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter from scrapy.http.cookies import Cooki 阅读全文

posted @ 2020-06-13 23:35 高汤阅读(144) 评论(0) 推荐(0) 编辑

自定义代理IP

摘要：自定义proxy.py import base64 import random from urllib.parse import unquote, urlunparse from urllib.request import _parse_proxy from scrapy.utils.python 阅读全文

posted @ 2020-06-13 23:20 高汤阅读(226) 评论(0) 推荐(0) 编辑

2020年6月11日

爬虫深度控制

摘要：深度配置文件： # 限制深度 DEPTH_LIMIT = 3 阅读全文

posted @ 2020-06-11 22:30 高汤阅读(217) 评论(0) 推荐(0) 编辑

手动处理cookie（实现一个点赞爬虫）

摘要： import scrapy from scrapy.http.cookies import CookieJar from scrapy.http import Request from urllib.parse import urlencode class ChoutiSpider(scrapy.S 阅读全文

posted @ 2020-06-11 22:28 高汤阅读(355) 评论(0) 推荐(0) 编辑

Django 数据导入和导出（数据库的迁移方法）

摘要：简单的数据导出与导入（简单的迁移）： 1 数据导出 django 项目提供了一个导出的方法 python manage.py dumpdata, 不指定 appname 时默认为导出所有的app python manage.py dumpdata [appname] > appname_data.j 阅读全文

posted @ 2020-06-11 17:49 高汤阅读(2200) 评论(0) 推荐(0) 编辑

2020年6月10日

dupefilter对访问的url做去重

摘要： dupefilter对访问的url做去重第一步：在爬虫文件中chouti.py中 import scrapy from xdb.items import XdbItem from scrapy.dupefilters import RFPDupeFilter class ChoutiSpider 阅读全文

posted @ 2020-06-10 23:01 高汤阅读(231) 评论(0) 推荐(0) 编辑

2020年6月9日

nginx + uwsgi + django部署项目

摘要： uwsgi.ini [uwsgi] #使用nginx连接时使用 #socket=127.0.0.1:8080 #直接做web服务器使用 http=127.0.0.1:80 #项目目录 chdir=/root/shell_mac #项目uwsgi.py文件目录，相对于项目目录 wsgi-file=sh 阅读全文

posted @ 2020-06-09 17:07 高汤阅读(139) 评论(0) 推荐(0) 编辑

python内置方法（魔法方法）

摘要：内置的类方法和内置的函数之间有着千丝万缕的联系双下方法 obj.__str__ str（obj） obj.__repr__ repr（obj） class A: def __str__(self): return 'xxxxx' def __repr__(self): return 'xxxxx' 阅读全文

posted @ 2020-06-09 00:50 高汤阅读(121) 评论(0) 推荐(0) 编辑

2020年6月8日

git初始化操作

摘要： git初始化的一些配置方法一、先将仓库clone到本地，修改后再push到码云的仓库仓库 $ git clone https://gitee.com/用户个性地址/HelloGitee.git #将远程仓库克隆到本地在克隆过程中，如果仓库是一个私有仓库，将会要求用户输入码云的账号和密码。按照提阅读全文

posted @ 2020-06-08 22:57 高汤阅读(1065) 评论(0) 推荐(0) 编辑

高汤

公告