随笔分类 -  Python 爬虫

摘要:异步爬虫异步爬虫 多线程 多进程 协程 多线程与多进程 进程:运行中的程序,每次我们执行一个程序,操作系统对自动的为这个程序准备一些必要的资源(如:分配内存,创建一个能够执行的线程) 线程:程序内,可以直接被CPU调度的执行过程,是操作系统能够进行运算调度的最小单位,它被包含在进程之中,是进程中的实际运作单 阅读全文
posted @ 2023-05-19 13:50 sroot 阅读(58) 评论(0) 推荐(0) 编辑
摘要:requests 反爬概述 本章内容 模拟浏览器登录 -> 处理cookie 防盗链处理 -> 抓取梨视频数据 代理 -> 防止被封ip 接入第三方代理 cookie 登录 -> 得到cookie 带着cookie 去请求到需要的url # 必须把上面的两个操作连起来 # 我们可以使用session进行请求 -> ses 阅读全文
posted @ 2023-05-19 13:47 sroot 阅读(74) 评论(0) 推荐(0) 编辑
摘要:数据解析正则 元字符 元字符:具有固定含义的特殊符号 常用元字符: . 匹配除换行符以外的任意字符,未来在Python的re模块是个坑 \w 匹配字母或数字或下划线 \d 匹配数字 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字符串的开始 $ 匹配字符串的结尾 \W 匹配非字母或数字或下划线 \D 阅读全文
posted @ 2023-05-19 13:39 sroot 阅读(190) 评论(0) 推荐(0) 编辑
摘要:爬虫基础爬虫概述 爬虫 善:不破坏被爬取的网站的资源 恶:影响网站的正常运营(抢票,秒杀,使网站资源宕机) 爬虫的矛与盾 反爬机制 反反爬策略 robots.txt协议 第一个爬虫 from urllib.request import urlopen url = "http://www.baidu.com" 阅读全文
posted @ 2023-05-19 13:34 sroot 阅读(21) 评论(0) 推荐(0) 编辑
摘要:Python 基础Python解释器 & pycharm安装 注释 # 变量 常量 input #输入框 if #条件判断 while #循环 关键字 continue break 关键字 pass for循环 for 变量 in 可迭代的东西: 代码 把可迭代的东西中的每一项内容拿出来,挨个的赋值给变量,每一次赋值 阅读全文
posted @ 2023-05-19 13:27 sroot 阅读(8) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩