[GPT] 网页中某些dom内容是通过 js 数据异步渲染的，nodejs 怎么获取网页解析这些数据 - ercom - 博客园

[GPT] 网页中某些dom内容是通过 js 数据异步渲染的，nodejs 怎么获取网页解析这些数据

要处理使用JavaScript异步渲染内容的网页，您可以在 JavaScript 蜘蛛中使用 Puppeter 或 Playwright 等无头浏览器来获取网页，然后与动态渲染的内容进行交互。

下面是一个使用Puppeteer的例子：

复制代码

const puppeteer = require('puppeteer');

(async () => {
  // Launch a headless browser
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  // Navigate to the webpage
  await page.goto('http://example.com');

  // Wait for the asynchronous content to load
  await page.waitForSelector('#async_content');

  // Extract the data from the dynamically rendered content
  const data = await page.evaluate(() => {
    const asyncContent = document.querySelector('#async_content');
    return asyncContent.innerHTML;
  });

  // Process or parse the extracted data as needed
  console.log(data);

  // Close the browser
  await browser.close();
})();

复制代码

在本例中，Puppeter 用于启动无头浏览器并导航到所需的网页。我们使用 page.waitForSelector() 来等待包含异步呈现内容的特定元素出现在页面上。

然后，我们使用 page.eevaluate() 在页面的上下文中执行自定义 JavaScript 代码，并提取包含动态呈现内容的元素的内部 HTML。

您可以修改 page.eevaluate() 函数以提取特定数据或对内容执行任何必要的解析或操作。

在运行代码之前，请记住使用 npm install puppeteer 或 yarn add puppeteer 安装 Puppeteer。

Cool：ChatAI

Link：https://www.cnblogs.com/farwish/p/17521445.html

posted on 2023-07-02 21:24 ercom 阅读(125) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Puppeteer 入门与进阶: 快速上手

· [GPT] nodejs 有哪些类似 jquery 语法的 html 解析库

· nodejs学习总结01

· 使用无头浏览器脚本能处理动态加载的JS文件

· 爬虫之抓取js生成的数据

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2016-07-02 [php-src] 扩展中封装业务与 call_user_function 的使用建议

导航

统计

随笔 - 703
文章 - 65
评论 - 108
阅读 - 103万

随笔分类

NiceVideo

工具箱

工具在线

开源项目

社区博客

社新奇酷

文档直达

推荐排行榜

最新评论

1. Re:golang select 和外层的 for 搭配
@30码狗一只猪 🗡优化版： package main import ( "fmt" "time" ) func main() { intChan1 := make(chan int) intCha...
--ercom
2. Re:golang select 和外层的 for 搭配
关闭 channel 仍然可以读取到数据，只不过是零值，所以最后的 select for 大概率无法跳出，会不断在 intChan1 intChan2 读取出零值，要在关闭后跳出 select for...
--30码狗一只猪
3. Re:[CI] CodeIgniter快速开发指南
的确简单明了的教程，感谢博主的分析。
--BeiGod
4. Re:[FAQ] Python list 的值是带有小括号的是什么意思 ?
我认为本篇博客很棒！
--努力变胖-HWP
5. Re:[FAQ] wechaty 与 wechaty-puppet-padplus 生态安全吗
@ercom 真实一个忧伤的结论...
--纵一苇之所如-

AI FOR CODE 大赛