随笔分类 - Python 爬虫
摘要:
异步爬虫 多线程 多进程 协程 多线程与多进程 进程:运行中的程序,每次我们执行一个程序,操作系统对自动的为这个程序准备一些必要的资源(如:分配内存,创建一个能够执行的线程) 线程:程序内,可以直接被CPU调度的执行过程,是操作系统能够进行运算调度的最小单位,它被包含在进程之中,是进程中的实际运作单
阅读全文

摘要:
概述 本章内容 模拟浏览器登录 -> 处理cookie 防盗链处理 -> 抓取梨视频数据 代理 -> 防止被封ip 接入第三方代理 cookie 登录 -> 得到cookie 带着cookie 去请求到需要的url # 必须把上面的两个操作连起来 # 我们可以使用session进行请求 -> ses
阅读全文

摘要:
正则 元字符 元字符:具有固定含义的特殊符号 常用元字符: . 匹配除换行符以外的任意字符,未来在Python的re模块是个坑 \w 匹配字母或数字或下划线 \d 匹配数字 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字符串的开始 $ 匹配字符串的结尾 \W 匹配非字母或数字或下划线 \D
阅读全文

摘要:
爬虫概述 爬虫 善:不破坏被爬取的网站的资源 恶:影响网站的正常运营(抢票,秒杀,使网站资源宕机) 爬虫的矛与盾 反爬机制 反反爬策略 robots.txt协议 第一个爬虫 from urllib.request import urlopen url = "http://www.baidu.com"
阅读全文

摘要:
Python解释器 & pycharm安装 注释 # 变量 常量 input #输入框 if #条件判断 while #循环 关键字 continue break 关键字 pass for循环 for 变量 in 可迭代的东西: 代码 把可迭代的东西中的每一项内容拿出来,挨个的赋值给变量,每一次赋值
阅读全文
