node 爬虫根据目录自动存写入文档

本案例以小说网站为案例

需要用到的模块有 fs,patn 用来操作文件,使用selenium-web来操作浏览器。（如果对改插件不太了解和使用可以看我另一篇文章 node 使用selenium 爬取页面数据（node爬虫）有具体介绍如何安装和使用）

其中 selenium-webdriver 模块是需要自己安装一下的。

npm i selenium-webdriver

通过指定的浏览器打开

var driver = new Builder().forBrowser('firefox').build();

在用浏览器进入指定地址，并获取所有章节的标签

进入章节详情获取数据

把获取的数据存入指定文档，并循环其它章节

下面是全部操作代码

const fs = require('fs')
const path = require('path')
let file = path.resolve(__dirname, './file.txt'); //存入文件位置
const {
  Builder,
  By,
  Key,
  until
} = require('selenium-webdriver');


var currentPageNum = 1; //第一章节
var maxPageNum = 2059; //最大章节数
var driver = new Builder().forBrowser('firefox').build();
var list = []
start()
async function start() {


  await driver.get('https://www.xbiquge.la/34/34525/'); //小说 目录首页
  let listLength = await driver.findElements(By.css('.box_con dl dd')); //获取小说所有章节的标签
  maxPageNum = listLength.length; //更新最大章节数
  inWeb(); //进入小说章节页面
};


async function inWeb() {


  console.log(`当前正在获取第${currentPageNum}页数据，共${maxPageNum}页`)


  if (currentPageNum < maxPageNum + 1) {
    console.log("------------开始点击   进入文章-------------")
    let pageItem = await driver.findElements(By.css('.box_con dl dd'));


    let item = await pageItem[currentPageNum - 1].findElement(By.css("a")) //根据章节数进入小说页面
    let href = await item.getAttribute("href")
    await driver.get(href); //小说 内容页面  通过a标签的href地址进入
    // item.click();//点击事件来进入页面
    setTimeout(() => {
      getData(); //获取小说数据
    }, 200); //增加延迟时间给页面加载，如果没有加载完成无法获取元素


  }


}


async function getData() {
  while (true) {
    let notError = true;
    try { //更具css样式获取对应内容
      let title = await driver.findElement(By.css('.bookname h1'));
      let text = await driver.findElement(By.id("content"));


      title = await title.getText(); //标题
      text = await text.getText(); //内容
      currentPageNum++; //获取内容后增加章节数
      let str = "\n" + title + "\n" + text
      // 异步写入数据到文件
      fs.appendFile(file, str, { //把获得的章节名称和内容写入文档
        encoding: 'utf8'
      }, err => {})
      if (currentPageNum < maxPageNum + 1) { //如果章节数没有达到最大章节数就继续爬取数据


        start()
      }
    } catch (error) {


      if (e) notError = false
      console.log("error ------------", error.message);


    } finally {
      if (notError) break;
    }
  }
}

posted @ 2022-02-02 16:21 IT源码猫阅读(80) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· node 使用selenium 爬取页面数据（node爬虫）

· 同时启动node和vue项目解决方案

· 小说爬虫——以https://www.tadu.com/book/catalogue/891710/（小说目录）为例

· 动态加载页面的爬虫方法之Selenium

· selenium自动化测试-获取动态页面小说

阅读排行：
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· 没有源码，如何修改代码逻辑？
· NetPad：一个.NET开源、跨平台的C#编辑器
· PowerShell开发游戏 · 打蜜蜂
· 凌晨三点救火实录：Java内存泄漏的七个神坑，你至少踩过三个！

公告

昵称： IT源码猫
园龄： 5年10个月
粉丝： 17
关注： 9

+加关注

2025年2月

日

一

二

三

四

五

六

IT源码猫

node 爬虫根据目录自动存写入文档

本案例以小说网站为案例

通过指定的浏览器打开

在用浏览器进入指定地址，并获取所有章节的标签

进入章节详情获取数据

把获取的数据存入指定文档，并循环其它章节

下面是全部操作代码

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

IT源码猫

node 爬虫 根据目录自动存写入文档

本案例以小说网站为案例

通过指定的浏览器打开

在用浏览器进入指定地址，并获取所有章节的标签

进入章节详情获取数据

把获取的数据存入指定文档，并循环其它章节

下面是全部操作代码

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

node 爬虫根据目录自动存写入文档