node 使用selenium 爬取页面数据(node爬虫)
什么是selenium-webdriver
selenium-webdriver是一种用于调动浏览器进行操作的插件。本文主要是给node使用,并拥有爬虫获取数据。
操作流程
打开npm网站,搜索selenium-webdriver
https://www.npmjs.com/package/selenium-webdriver
选择自己使用的浏览器,并安装对应的浏览器版本,一定要和自己浏览器的版本一致的驱动程序
写清楚使用的浏览器,并且调用的辅助驱动最好和调用程序放在一个目录下
也chrome版本比较多,如果找不到对应的版本还可以使用firefox,效果基本一致,只是浏览器不一样
本案例使用的就是火狐,读取一个小说网站,并通过css和标签获取章节名和链接地址
先安装模块
npm i selenium-webdriver
下面是全部代码
const {Builder, By, Key, until} = require('selenium-webdriver');
(async function example() {
let driver = await new Builder().forBrowser('firefox').build();
try {
await driver.get('https://m.banzhuchilaohu.com/indexlist/2916/');
// await driver.findElement(By.id('cboxClose')).click()
// await driver.findElement(By.id('kw')).sendKeys('前端', Key.RETURN);
let items = await driver.findElements(By.css('.chapter li'));
var list = []
for(let i=0; i<items.length; i++) {
let item = items[i];
// console.log(await item.getText())
let title = await item.findElement(By.css("a")).getText();
let url = await item.findElement(By.css("a")).getAttribute("href");
list.push({title,url});
}
console.log(list);
} finally {
// await driver.quit();
}
})();
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库
· SQL Server 2025 AI相关能力初探
· 为什么 退出登录 或 修改密码 无法使 token 失效