Norni - 博客园

2020年8月6日

摘要：一、数据结构和算法基础 1.算法的概念算法是独立存在的一种解决问题的方法和思想算法的五大特性: 输入:算法具有0个或多个输入输出:算法至少有1个或多个输出有穷性:算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完成确定性:算法中的每一步都有确定的含义,不会出阅读全文

posted @ 2020-08-06 23:32 Norni 阅读(570) 评论(0) 推荐(0) 编辑

2020年7月30日

一、Docker

摘要： 1、Docker介绍官方中文文档 http://www.dockerinfo.net/document 安装docker sudo apt install docker.io 使用docker 方法一以管理员权限，运行docker命令方法二 sudo groupadd docker # 添加d 阅读全文

posted @ 2020-07-30 01:56 Norni 阅读(96) 评论(0) 推荐(0) 编辑

2020年7月29日

搜狗微信爬虫项目

摘要：搜狗微信爬虫项目一、需求分析 1、概述 1.1 项目简介基于搜狗微信搜索的微信公众号爬虫接口 ###2、需求分析获取公众号信息通过api，输入特定公众号，能查找相关信息相关信息 { 'public_name':str # 公众号名称 'wechat_id':str # 微信id "publ 阅读全文

posted @ 2020-07-29 11:00 Norni 阅读(989) 评论(0) 推荐(0) 编辑

2020年7月28日

二十八、scrapy学习路线

摘要： scrapy初级起始url parse 选择器 pipeline requests POST cookie Headers scrapy进阶去重调度器(队列) 中间件扩展(基于信号) https 代理(基于中间件) scrapy高级 miniscrapy模拟scrapy流程阅读全文

posted @ 2020-07-28 16:21 Norni 阅读(164) 评论(0) 推荐(0) 编辑

二十七、miniscrapy,scrapy源码初解

摘要：基本使用 from twisted.web.client import getPage, defer from twisted.internet import reactor # 基本使用 def all_done(contents): # 所有爬虫执行完毕后，循环终止 reactor.stop() 阅读全文

posted @ 2020-07-28 16:17 Norni 阅读(133) 评论(0) 推荐(0) 编辑

2020年7月27日

二十六、Scrapy自定义命令

摘要：创建命令目录及文件 settings.py中定义命令代码 from scrapy.commands import ScrapyCommandclass Command(ScrapyCommand): requires_project = True def syntax(self): retu 阅读全文

posted @ 2020-07-27 21:56 Norni 阅读(189) 评论(0) 推荐(0) 编辑

2020年7月25日

二十五、scrapy中的去重规则及自定义

摘要：在settings.py中,虽然没有明确写出来去重方式,但是默认为以下内容 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' DUPEFILTER_CLASS = False JOBDIR = "保存范文记录的日志路径，如：/root/" # 阅读全文

posted @ 2020-07-25 16:14 Norni 阅读(344) 评论(0) 推荐(0) 编辑

二十四、在scrapy中如何获取cookies

摘要： import scrapyclass BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.baidu.com'] start_urls = ['http://www.baidu.com/'] def parse(sel 阅读全文

posted @ 2020-07-25 15:09 Norni 阅读(1161) 评论(0) 推荐(0) 编辑

十六、 IO多路复用,异步非阻塞

摘要：总结: 与实现twisted或tornado的原理类似,通过理解这个代码,能实现其他异步框架的理解参考: IO模型:https://www.cnblogs.com/nuochengze/p/13372747.html socket在爬虫中的表层应用:https://www.cnblogs.com/ 阅读全文

posted @ 2020-07-25 10:36 Norni 阅读(126) 评论(0) 推荐(0) 编辑

2020年7月24日

六、socketserver

摘要： socketserver能实现socket服务器端的多并发 import socketserver class MyRequestHandle(socketserver.BaseRequestHandler): def handle(self): # self.request,如果是tcp协议，那么阅读全文

posted @ 2020-07-24 17:03 Norni 阅读(99) 评论(0) 推荐(0) 编辑

公告