随笔 - 49  文章 - 0  评论 - 20  阅读 - 12万

Puppeteer学习笔记 (1)- 什么是Puppeteer

本文链接:https://www.cnblogs.com/hchengmx/p/11006263.html

1. phantomjs介绍

在介绍puppeteer之前必须介绍一下phantomjs,phantomjs是一个可以用JavaScript编程的无头浏览器,它在后端使用了QtWebKit。

但是根据 https://github.com/ariya/phantomjs/issues/15344

由于缺乏有效的贡献,我将要把这个项目存档。
要是将来的某一天,要是我们想要重新开发spantomjs,我们会重新运行它。
PhantomJS版本2.1.1将会是最后一个已知的稳定版本。

2. puppeteer是什么

puppeteer是一个Node库,是由Google官方开发的,它使用了 DevTools协议,提供了强大的api来控制 headless 的chrome或者Chromium。它也可以设置为控制完整的(非headless模式)的chrome或者Chromium。

3. puppeteer可以做什么

  • 为每个页面生成截图和PDF;
  • 抓取网页内容,也就是我们所说的爬虫;
  • 自动化表单的提交,UI测试,键盘输入等;
  • 创建最新的自动化测试环境。使用最新的JavaScript和浏览器功能直接在最新版本的Chrome中运行测试;
  • 为你的网站创建一个 timeline trace,协助你诊断性能问题;
  • 测试Chrome的Extensions;

4. puppeteer和puppeteer-core

自1.7.0版本以来,Chrome官方都会发布一个 puppeteer-core 包,于 puppeteer的主要区别是,这个包默认不会下载 Chromium,更多区别可见 这里

5. puppeteer组织架构

根据puppeteer官方的说明,目前puppeteer的组织架构如下。

  • puppeteer 通过 DevTools协议 与浏览器进行通信。
  • Browser 实例可以有多个BrowserContext。
  • BrowserContext 定义了一个浏览器session,她可以拥有多个页面。
  • Page 至少拥有一个frame:main frame。。还可以有iframe或者frame创建的其他frames。
  • Frame 至少有一个 execution context(执行上下文)
  • Worker 拥有一个单独的 execution context(执行上下文),与 WebWorkers 通信。

参考资料:

  1. 用Python做爬虫的各位,不要再用PhantomJS了
  2. 因内部闹矛盾,PhantomJS 宣布封存归档暂停开发
  3. PhantomJS - Scriptable Headless Browser
posted on   hchengmx  阅读(2425)  评论(0编辑  收藏  举报
编辑推荐:
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· 单线程的Redis速度为什么快?
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示