上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 28 下一页
摘要: 一、数据结构和算法基础 1.算法的概念 算法是独立存在的一种解决问题的方法和思想 算法的五大特性: 输入:算法具有0个或多个输入 输出:算法至少有1个或多个输出 有穷性:算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完成 确定性:算法中的每一步都有确定的含义,不会出 阅读全文
posted @ 2020-08-06 23:32 Norni 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 1、Docker介绍 官方中文文档 http://www.dockerinfo.net/document 安装docker sudo apt install docker.io 使用docker 方法一 以管理员权限,运行docker命令 方法二 sudo groupadd docker # 添加d 阅读全文
posted @ 2020-07-30 01:56 Norni 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 搜狗微信爬虫项目 一、需求分析 1、概述 1.1 项目简介 基于搜狗微信搜索的微信公众号爬虫接口 ###2、需求分析 获取公众号信息 通过api,输入特定公众号,能查找相关信息 相关信息 { 'public_name':str # 公众号名称 'wechat_id':str # 微信id "publ 阅读全文
posted @ 2020-07-29 11:00 Norni 阅读(989) 评论(0) 推荐(0) 编辑
摘要: scrapy初级 起始url parse 选择器 pipeline requests POST cookie Headers scrapy进阶 去重 调度器(队列) 中间件 扩展(基于信号) https 代理(基于中间件) scrapy高级 miniscrapy模拟scrapy流程 阅读全文
posted @ 2020-07-28 16:21 Norni 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 基本使用 from twisted.web.client import getPage, defer from twisted.internet import reactor # 基本使用 def all_done(contents): # 所有爬虫执行完毕后,循环终止 reactor.stop() 阅读全文
posted @ 2020-07-28 16:17 Norni 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 创建命令目录及文件 settings.py中定义命令 代码 from scrapy.commands import ScrapyCommand​​class Command(ScrapyCommand): requires_project = True​ def syntax(self): retu 阅读全文
posted @ 2020-07-27 21:56 Norni 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 在settings.py中,虽然没有明确写出来去重方式,但是默认为以下内容 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' DUPEFILTER_CLASS = False JOBDIR = "保存范文记录的日志路径,如:/root/" # 阅读全文
posted @ 2020-07-25 16:14 Norni 阅读(344) 评论(0) 推荐(0) 编辑
摘要: import scrapyclass BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.baidu.com'] start_urls = ['http://www.baidu.com/'] def parse(sel 阅读全文
posted @ 2020-07-25 15:09 Norni 阅读(1161) 评论(0) 推荐(0) 编辑
摘要: 总结: 与实现twisted或tornado的原理类似,通过理解这个代码,能实现其他异步框架的理解 参考: IO模型:https://www.cnblogs.com/nuochengze/p/13372747.html socket在爬虫中的表层应用:https://www.cnblogs.com/ 阅读全文
posted @ 2020-07-25 10:36 Norni 阅读(126) 评论(0) 推荐(0) 编辑
摘要: socketserver能实现socket服务器端的多并发 import socketserver class MyRequestHandle(socketserver.BaseRequestHandler): def handle(self): # self.request,如果是tcp协议,那么 阅读全文
posted @ 2020-07-24 17:03 Norni 阅读(99) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 28 下一页