js-crawl爬取文本信息
以下是如何使用 js-crawl
来爬取文本信息的基本步骤:
-
安装
js-crawl
:
首先,确保你已经通过 npm 安装了js-crawl
。npm install js-crawler
-
创建爬虫实例:
引入js-crawl
模块并创建一个新的爬虫实例。var Crawler = require("js-crawler"); var crawler = new Crawler();
-
配置爬虫(可选):
使用configure
方法来设置爬虫的配置选项,如爬取深度、用户代理等。crawler.configure({ depth: 1 });
-
开始爬取:
使用crawl
方法来开始爬取指定的 URL,并在onSuccess
回调中处理爬取到的页面。crawler.crawl("https://example.com", function onSuccess(page) { // 处理爬取到的页面 console.log(page.url); // 打印页面的 URL console.log(page.content); // 打印页面的内容,通常是 HTML });
-
获取文本信息:
如果你需要从爬取到的 HTML 中提取特定文本信息,你可以使用像cheerio
这样的库来解析 HTML 并提取数据。var cheerio = require('cheerio'); // 需要先安装 cheerio crawler.crawl("https://example.com", function onSuccess(page) { var $ = cheerio.load(page.content); var title = $('title').text(); // 假设你想获取页面的标题 console.log(title); });
-
处理错误(可选):
可以提供一个错误处理回调来处理爬取过程中可能发生的错误。crawler.crawl("https://example.com", function(page) { // 成功处理 }, function onError(page) { console.error("页面爬取错误:", page.url); });
-
爬取完成处理(可选):
如果你想在所有页面爬取完成后执行一些操作,可以提供一个finished
回调。crawler.crawl("https://example.com", function(page) { // 成功处理 }, null, function onAllFinished(crawledUrls) { console.log('所有爬取任务完成:', crawledUrls); });
请注意,js-crawl
默认爬取的是页面的 HTML 内容,如果你需要进一步处理这些内容(如提取文本),可能需要结合其他库来实现。上述示例中使用了 cheerio
来解析 HTML 并提取标题文本。