还是前两天做一个商城后台爬虫,限制用户缓存,不能用谷歌开发版本,同时需要下载文件。
import getpass
from playwright.sync_api import sync_playwright
__USER_DATE_DIR_PATH__ = f"C:\\Users\\{getpass.getuser()}\\AppData\Local\Google\Chrome\\User Data"
playwright = sync_playwright().start()
browser = playwright.chromium.launch_persistent_context(
user_data_dir=__USER_DATE_DIR_PATH__,
executable_path=__EXECUTABLE_PATH__,
accept_downloads=True,
headless=False,
bypass_csp=True,
slow_mo=10,
args=['--disable-blink-features=AutomationControlled']
)
注意用这个方法启动的浏览器会自带一个页面存在,当然你还是可以重新再起一个
page = browser.new_page()
page.goto('https://www.google.com',wait_until='networkidle',timeout=90000)
wait_until='networkidle' 意思是 跳转过后再一定时间内没有网络请求链接
timeout 很好理解 超时时间90秒
js注入(用途的话是选择器选择元素用的,具体的js 你们自己写)
window_handle = page.evaluate_handle("window")
window_handle.evaluate("document.querySelectorAll('#drrReportRangeTypeRadioMonthly')[0].checked=true")
drrMonthlySelect = page.wait_for_selector('//select[@id="drrMonthlySelect"]')
drrMonthlySelect.select_option(date)
接下来是下载操作
# 打开下载器
with page.expect_download() as download_info:
#找到你要下载的东西,找到点击的元素,点击
page.wait_for_selector('//a[@id="sspa-reports:report-settings-page:-download-button"]').click()
# 下载的东西
download = download_info.value
# 下载的路径
download.path()
# 下载的文件名
download.suggested_filename
# 关闭页面
page.close()
# 关闭浏览器
browser.stop()
剩下的操作 你想干啥干啥
page.click('//input[@id="signInSubmit"]')
self.page.wait_for_load_state("domcontentloaded")
page.fill('//input[@id="ap_email"]', user_str)
page.wait_for_selector('//select[@id="drrMonthlySelect"]')
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术