js-crawl爬取文本信息
以下是如何使用 js-crawl
来爬取文本信息的基本步骤:
-
安装
js-crawl
:
首先,确保你已经通过 npm 安装了js-crawl
。npm install js-crawler -
创建爬虫实例:
引入js-crawl
模块并创建一个新的爬虫实例。var Crawler = require("js-crawler"); var crawler = new Crawler(); -
配置爬虫(可选):
使用configure
方法来设置爬虫的配置选项,如爬取深度、用户代理等。crawler.configure({ depth: 1 }); -
开始爬取:
使用crawl
方法来开始爬取指定的 URL,并在onSuccess
回调中处理爬取到的页面。crawler.crawl("https://example.com", function onSuccess(page) { // 处理爬取到的页面 console.log(page.url); // 打印页面的 URL console.log(page.content); // 打印页面的内容,通常是 HTML }); -
获取文本信息:
如果你需要从爬取到的 HTML 中提取特定文本信息,你可以使用像cheerio
这样的库来解析 HTML 并提取数据。var cheerio = require('cheerio'); // 需要先安装 cheerio crawler.crawl("https://example.com", function onSuccess(page) { var $ = cheerio.load(page.content); var title = $('title').text(); // 假设你想获取页面的标题 console.log(title); }); -
处理错误(可选):
可以提供一个错误处理回调来处理爬取过程中可能发生的错误。crawler.crawl("https://example.com", function(page) { // 成功处理 }, function onError(page) { console.error("页面爬取错误:", page.url); }); -
爬取完成处理(可选):
如果你想在所有页面爬取完成后执行一些操作,可以提供一个finished
回调。crawler.crawl("https://example.com", function(page) { // 成功处理 }, null, function onAllFinished(crawledUrls) { console.log('所有爬取任务完成:', crawledUrls); });
请注意,js-crawl
默认爬取的是页面的 HTML 内容,如果你需要进一步处理这些内容(如提取文本),可能需要结合其他库来实现。上述示例中使用了 cheerio
来解析 HTML 并提取标题文本。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· .NET Core 中如何实现缓存的预热?
· 三行代码完成国际化适配,妙~啊~
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?