摘要: scrapy运行流程 先弄清除他的运行流程之外,得先知道他的5大核心组件 1 spider,爬虫 2 引擎 3 调度器 4 下载器 5 管道 流程: - 在爬虫类中定义要爬取得url,将url封装成一个对象,传入引擎 - 引擎接收到对象,将对象传到调度器 - 调度器由2个部分组成,一个是过滤器,一个 阅读全文
posted @ 2020-10-12 21:18 李淳罡zZ 阅读(79) 评论(0) 推荐(0)
摘要: 1 服务器反爬的原因 爬虫占总PV高,浪费资源 资源被批量爬走,丧失竞争力 2 服务器常反什么样的爬虫 应届毕业生 创业小公司 没法停止的失控小爬虫 成型的商业对手 抽风的搜索引擎 3 反爬虫领域常见的一些概念 爬虫 反爬虫 误伤 拦截 资源 4 反爬的三个反向 基于身份识别 基于爬虫行为 基于数据 阅读全文
posted @ 2020-10-08 18:02 李淳罡zZ 阅读(81) 评论(0) 推荐(0)
摘要: scrapy运行流程 先弄清除他的运行流程之外,得先知道他的5大核心组件 1 spider,爬虫 2 引擎 3 调度器 4 下载器 5 管道 流程: - 在爬虫类中定义要爬取得url,将url封装成一个对象,传入引擎 - 引擎接收到对象,将对象传到调度器 - 调度器由2个部分组成,一个是过滤器,一个 阅读全文
posted @ 2020-10-07 12:22 李淳罡zZ 阅读(130) 评论(0) 推荐(0)
摘要: scrapy框架 -- 什么是框架 - 集成了很多功能的,并且具有很强通用性的一个项目模板. -- 如何学习框架 - 专门学习框架封装各种功能的详细用法. -- 什么是scrapy? - 爬虫中封装好的一个明星框架.功能: 高性能的持久化操作,异步的数据下载,高性能的数据解析,分布式 scrapy框 阅读全文
posted @ 2020-09-28 16:41 李淳罡zZ 阅读(100) 评论(0) 推荐(0)
摘要: 高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作. 异步爬虫的方式: - 多进程 多线程(不建议) 好处:可以为相关阻塞的操作单独开启进程或者线程,阻塞操作就可以异步执行 弊端:无法无限制的开启多线程,多进程 - 线程池&进程池(适当使用) 好处: 可以降低系统对进程或者线程创建和销毁 阅读全文
posted @ 2020-09-22 22:11 李淳罡zZ 阅读(129) 评论(0) 推荐(0)
摘要: 冒泡排序 nums = [6, 5, 3, 1, 8, 7, 2, 4] j = 0 while j < len(nums) - 1: flag = True i = 0 while i < len(nums) - 1 - j: if nums[i] > nums[i + 1]: flag = Fa 阅读全文
posted @ 2020-09-04 16:20 李淳罡zZ 阅读(127) 评论(0) 推荐(0)
摘要: ''' 快捷键 双击 shift 弹出全局搜索 ctrl+alt+l 快速格式化代码 快速复制 ctrl + d 移动一行代码 ctrl shift 上下箭头 home end 光标到第一个 和 最后一个 ''' 阅读全文
posted @ 2020-09-02 23:32 李淳罡zZ 阅读(111) 评论(0) 推荐(0)
摘要: """ 1 pycharm虚拟环境 创建项目 New Virtualenv environment Location venv 表示一个虚拟环境 不用动 Base interpreter 选择python解释器 2 Settings Project Project Interpreter 里面 添加 阅读全文
posted @ 2020-08-31 23:38 李淳罡zZ 阅读(168) 评论(0) 推荐(0)
摘要: import pymysql conn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='123',db='orm01') cursor = conn.cursor(cursor=pymysql.cursors.Dict 阅读全文
posted @ 2020-08-29 13:30 李淳罡zZ 阅读(102) 评论(0) 推荐(0)
摘要: 正则表达式本质是一个字符串,单独使用没有意义,正则表达式需要配合正则相关的函数(re) 原子, 元字符, 模式修正符 #原子(只有一个字符!!!!!): 组成正则表达式的最小单位,一个正则表达式至少需要一个原子 1 所有可见字符都是原子: a,b,c...你,我,她, +-*@# 2 所有不可见字符 阅读全文
posted @ 2020-08-27 23:59 李淳罡zZ 阅读(294) 评论(0) 推荐(0)