playwright的使用
playwright是微软在2020年开源的新一代支持异步的自动化测试工具,对市面上的主流浏览器(Chromium、Firefox、Webkit)都提供了支持,API功能简洁又强大。
官网文档:https://playwright.dev/python/docs/api/class-playwright
一、特点
- 安装和配置过程非常简单,安装过程中自动安装对应的浏览器和驱动
- 支持无头、有头模式
- 提供和自动等待相关的API,页面加载时会自动等待对应的节点加载,大大减小编写复杂度,比如:page.wait_for_load_state(state='networkidle'),会等待页面加载完成
二、安装
-
安装依赖
pip3 install playwright
python版本需要 > 3.7
-
安装驱动
playwright install
会下载全部驱动,速度较慢,如果只安装某一个驱动,就在命令后带上驱动名,可以用:playwright install --help查看命令
三、基本使用
-
同步模式 -- 类似于Selenium
from playwright.sync_api import sync_playwright # 方式一:使用with上下文管理器 with sync_playwright() as p: for browser_type in [p.chromium, p.firefox, p.webkit]: browser = browser_type.launch(headless=False) page = browser.new_page() page.goto('https://www.baidu.com/') page.screenshot(path=f'{browser_type.name}.png') print(page.title()) browser.close() # 方式二:不使用with上下文管理器 p = sync_playwright().start() # 开启 browser = p.chromium.launch() page = browser.new_page() page.goto('https://www.baidu.com/') page.screenshot(path='baidu.png') browser.close() p.stop() # 关闭
-
异步模式 -- 类似于Pyppetter
import asyncio from playwright.async_api import async_playwright async def main(): async with async_playwright() as p: for browser_type in [p.chromium, p.firefox, p.webkit]: browser = await browser_type.launch(headless=False) page = await browser.new_page() await page.goto('https://www.baidu.com/') await page.screenshot(path=f'{browser_type.name}.png') print(await page.title()) await browser.close() asyncio.run(main())
-
移动端浏览器页面
from playwright.sync_api import sync_playwright with sync_playwright() as playwright: iphone = playwright.devices["iPhone 12"] browser = playwright.webkit.launch(headless=False) context = browser.new_context(**iphone) page = context.new_page() page.goto("https://weibo.com/") page.wait_for_load_state(state='networkidle') # 当前页面初始化和加载完成的状态 page.screenshot(path='weibo.png') browser.close()
四、规避webdriver检测
-
page.add_init_script(js)
from playwright.sync_api import Playwright, sync_playwright p = sync_playwright().start() browser = p.chromium.launch(headless=False) # chromium有头浏览器 page = browser.new_page() #创建page对象 js=""" Object.defineProperties(navigator, {webdriver:{get:()=>undefined}}); """ page.add_init_script(js); # 执行规避webdriver检测 page.goto('http://xxx.com') # 访问目标网站 browser.close()
注意执行的时机
五、自动录制脚本
该功能可以录制我们在浏览器中的操作并自动生成代码,有了该功能,甚至一行代码都不用写
-
命令行
playwright codegen
执行命令后会自动打开浏览器,后续在浏览器上的操作都会自动翻译成代码
-
查看codegen命令具体参数
playwright codegen --help
六、选择器
除了正常的css选择器以外,还扩展了文本选择、xpath、以及css选择器与文本和节点关系来配合筛选
- 选择器
# css选择器 page.click('#button') # 文本选择器 page.click('text=登录') # 开头需指明'text=' # xpath选择器 page.click('xpath=//button') # 开头需指明'xpath=' # css选择器+文本 page.click('p:has-text("Playwright")') # :has-text() -> 包含指定字符串 page.click('p:has-text("contact us")') # :text() -> 完全匹配字符串 # css选择器+节点关系 page.click('p:has(span)') # :has() -> 包含某个子节点 选择包含span子节点的p标签 page.click('input:right-of(:text("用户名"))') # :right-of() -> 位置在某个节点的右侧 选择在文本内容为'用户名'节点右侧的input节点
七、代理设置
-
无身份验证
browser = p.chromium.launch(proxy={'server': 'http://ip:port'})
-
有身份验证
browser = p.chromium.launch(proxy={'server': 'http://ip:port', 'username':'用户名', 'password':'密码'})
八、常用方法
-
方法
# 监听事件, 比如close、console、load、request、response等 page.on(event, callback) # 请求拦截 page.route(url, handler) # url可以是普通字符串(必须含url末位字符),也可以是正则pattern字符串,即re.compile(r'xxx') # 设置页面大小 page.set_viewport_size({'width':1366, 'height':768}) # 执行js代码 data1 = page.evaluate('() => {return window.encrypt("xx", "yyy")}') data2 = page.evaluate('([a, b]) => a + b', [3, 4]) # 7 data3 = page.evaluate('10+5') # 15 js_code1 = ''' var test = function(a,b){window.hello = 20;return a + b}; // 只能使用函数表达式,使用函数声明则会报错 test(30,60) // 不能使用return ''' js_code2 = '''window.hello''' js_code3 = ''' var a = 20; var b = 30; a + b ''' print(page.evaluate(js_code1)) # 90 print(page.evaluate(js_code2)) # 20 print(page.evaluate(js_code3)) # 50 # 访问具体网站 page.goto(url) # 等待页面加载完成 page.wait_for_load_state(state='networkidle') # 截图 page.screenshot(type=None, path=None) # 点击页面元素 page.click(selector) # 获取页面源码 page.content() # 获取单个节点 element = page.query_selector(selector) element.get_attribute('属性名') # 获取节点属性 element.text_content() # 获取节点文本 # 获取多个节点 elements = page.query_selector_all(selector) for ele in elements: ele.get_attribute('属性名') # 获取属性 ele.text_content() # 获取文本 # 文本输入 # 方式一 page.fill(selector, value, timeout=None) # 根据选择器,输入文本内容,timeout可设置对应节点的最长等待时间 # 方式二: 可以先获取节点,然后调用节点的fill()方法
九、事件监听
Page对象提供了on方法,用来监听页面中的各个事件,比如close、console、load、request、response等
-
示例
from playwright.sync_api import sync_playwright def on_response(response): # 直接截获ajax请求数据 if '/api/movie' in response.url and response.status == 200: print(response.json()) with sync_playwright() as playwright: browser = playwright.chromium.launch(headless=False) page = browser.new_page() # 事件监听,例如close、console、load、request、response等 page.on('response', on_response) page.goto("https://spa6.scrape.center/") # 访问网址 page.wait_for_load_state(state='networkidle') # 等待当前页面初始化和加载完成 browser.close()
十、请求拦截器
-
page.route(url, handler)
- 参数1:表示匹配的url
- 1、可以是完整的url,或者url的后半部分(必须到末位字符)
- 比如'https://www.baidu.com/'、'www.baidu.com/'、'baidu.com'等均可拦截'https://www.baidu.com/'
- 2、可以是正则pattern
- 比如re.compile(r'\.(png|jpg|jpeg)')
- 1、可以是完整的url,或者url的后半部分(必须到末位字符)
- 参数2:handler(route)
- 参数route:
- route.request:返回Request对象
- route.abort():停止请求
- route.continue_()
- 不指定参数,表示继续请求
- 指定关键字参数url,则表示跳转
- 其它参数还包括method、headers、postData
- route.fulfill():修改响应内容
- 指定body参数,可以直接响应自定义文本内容
- 指定path参数,可响应指定的本地文件
- 其它参数还包括status、headers、json、contentType、response
- 参数route:
- 参数1:表示匹配的url
-
示例
import re from playwright.sync_api import sync_playwright with sync_playwright() as playwright: browser = playwright.chromium.launch(headless=False) page = browser.new_page() # 停止请求 page.route(re.compile(r'\.(png|jpg|jpeg)'), lambda route: route.abort()) # 过滤图片 # 跳转请求 page.route('https://spa6.scrape.center/', lambda route: route.continue_(url='https://www.baidu.com/')) # 用给定的内容响应 # page.route('https://www.zhihu.com/', lambda route: route.fulfill(body='指定返回的内容')) page.route('https://www.zhihu.com/', lambda route: route.fulfill(path='./test.html')) page.goto("https://spa6.scrape.center/") # 访问网址 page.wait_for_load_state(state='networkidle') # 等待当前页面初始化和加载完成 page.goto('https://www.zhihu.com/') page.wait_for_load_state(state='networkidle') print(page.content()) browser.close()
十一、浏览器环境JS代码模拟执行(辅助逆向)
-
思路
- 找到js中加密函数所在位置,在代码中将其赋值给window对象的某个属性,只要不和现有属性冲突即可(比如encrypt)
- 将修改后的js保存到本地,通过page.route拦截该js,然后利用保存后的js文件进行本地替换
- 通过page.goto()访问一次目标网站,使得window对象的赋值被加载执行
- 模拟调用,比如:
result = page.evaluate('() => {return window.encrypt("%s","%s")}'%('aaa', 'bbb')) # result = page.evaluate('window.encrypt("%s","%s")'%('aaa', 'bbb'))