摘要:
一、数据结构和算法基础 1.算法的概念 算法是独立存在的一种解决问题的方法和思想 算法的五大特性: 输入:算法具有0个或多个输入 输出:算法至少有1个或多个输出 有穷性:算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完成 确定性:算法中的每一步都有确定的含义,不会出 阅读全文
摘要:
1、Docker介绍 官方中文文档 http://www.dockerinfo.net/document 安装docker sudo apt install docker.io 使用docker 方法一 以管理员权限,运行docker命令 方法二 sudo groupadd docker # 添加d 阅读全文
摘要:
搜狗微信爬虫项目 一、需求分析 1、概述 1.1 项目简介 基于搜狗微信搜索的微信公众号爬虫接口 ###2、需求分析 获取公众号信息 通过api,输入特定公众号,能查找相关信息 相关信息 { 'public_name':str # 公众号名称 'wechat_id':str # 微信id "publ 阅读全文
摘要:
scrapy初级 起始url parse 选择器 pipeline requests POST cookie Headers scrapy进阶 去重 调度器(队列) 中间件 扩展(基于信号) https 代理(基于中间件) scrapy高级 miniscrapy模拟scrapy流程 阅读全文
摘要:
基本使用 from twisted.web.client import getPage, defer from twisted.internet import reactor # 基本使用 def all_done(contents): # 所有爬虫执行完毕后,循环终止 reactor.stop() 阅读全文
摘要:
创建命令目录及文件 settings.py中定义命令 代码 from scrapy.commands import ScrapyCommandclass Command(ScrapyCommand): requires_project = True def syntax(self): retu 阅读全文
摘要:
在settings.py中,虽然没有明确写出来去重方式,但是默认为以下内容 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' DUPEFILTER_CLASS = False JOBDIR = "保存范文记录的日志路径,如:/root/" # 阅读全文
摘要:
import scrapyclass BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.baidu.com'] start_urls = ['http://www.baidu.com/'] def parse(sel 阅读全文
摘要:
总结: 与实现twisted或tornado的原理类似,通过理解这个代码,能实现其他异步框架的理解 参考: IO模型:https://www.cnblogs.com/nuochengze/p/13372747.html socket在爬虫中的表层应用:https://www.cnblogs.com/ 阅读全文
摘要:
socketserver能实现socket服务器端的多并发 import socketserver class MyRequestHandle(socketserver.BaseRequestHandler): def handle(self): # self.request,如果是tcp协议,那么 阅读全文