如何使用 Java 将网站 URL 页面转换为文本

如何使用 Java 将网站 URL 页面转换为文本

查看网站副本可能是一项耗时的任务,需要仔细阅读构成典型面向客户的网站的许多单独页面中的每一个。然而,值得庆幸的是,有一个简单的方法可以解决这个问题——我们的 URL 到文本转换 API 将快速从输入 URL 页面的 HTML 代码中删除所有可用的文本,返回一个只包含纯文本 (“TextContentResult”) 的字符串,并且没有额外的混乱。最好的部分?您可以通过在我们的网站上注册一个免费帐户来免费使用此 API。免费层帐户非常适合小规模项目,并且额外承诺为零,提供每月 800 次 API 调用的硬性限制。注册帐户后,您可以按照以下说明安装客户端并在 Java 中构建您的 API 调用。

我们可以从使用 Maven 安装 API 客户端开始。首先,让我们在 pom.xml 存储库中包含一个引用:

 <repositories>  
 <repository>  
 <id>jitpack.io</id>  
 <url>[ https://jitpack.io](https://jitpack.io) </url>  
 </repository>  
 </repositories>

接下来,我们可以添加对 pom.xml 依赖项的引用:

 <dependencies>  
 <dependency>  
 <groupId>com.github.Cloudmersive</groupId>  
 <artifactId>Cloudmersive.APIClient.Java</artifactId>  
 <version>v4.25</version>  
 </dependency>  
 </dependencies>

继续我们的控制器,我们可以将导入添加到文件顶部:

 // 导入类:  
 //import com.cloudmersive.client.invoker.ApiClient;  
 //import com.cloudmersive.client.invoker.ApiException;  
 //import com.cloudmersive.client.invoker.Configuration;  
 //import com.cloudmersive.client.invoker.auth.*;  
 //导入 com.cloudmersive.client.ConvertWebApi;

我们现在可以复制下面的最终片段并将我们的 API 密钥包含在“配置 API 密钥授权”注释下方。只需在请求参数格式中包含您的 URL,就可以了:

 ApiClient defaultClient = Configuration.getDefaultApiClient(); // 配置API密钥授权:Apikey  
 ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");  
 Apikey.setApiKey("你的 API 密钥");  
 // 取消注释以下行以设置 API 密钥的前缀,例如“Token”(默认为 null)  
 //Apikey.setApiKeyPrefix("Token"); ConvertWebApi apiInstance = new ConvertWebApi();  
 UrlToTextRequest 输入 = 新 UrlToTextRequest(); // UrlToTextRequest | HTML 转文本请求参数  
 尝试 {  
 UrlToTextResponse 结果 = apiInstance.convertWebUrlToTxt(input);  
 System.out.println(结果);  
 } 捕捉(ApiException e){  
 System.err.println("调用 ConvertWebApi#convertWebUrlToTxt 时出现异常");  
 e.printStackTrace();  
 }

请求参数格式:

 { **  
** “网址”: **** “细绳” **  
**}

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/22256/17400709

posted @ 2022-09-07 09:17  哈哈哈来了啊啊啊  阅读(187)  评论(0编辑  收藏  举报