如何使用 Java 将 HTML 字符串转换为文本

如何使用 Java 将 HTML 字符串转换为文本

网站副本被打包成 HTML 语法,因此它可以在我们的浏览器上正确显示(使用特定的格式规则)——这意味着在需要时仅访问该文本本身有点困难。然而,值得庆幸的是,以编程方式从 HTML 字符串中删除文本很容易。我们的 HTML to Text API 将快速从 HTML 语法中提取纯文本、无格式文本字符串并仅返回该文本(完全不影响原始 HTML 字符串),从而可以直接将该文本包含在数十个新位置,甚至对其进行分析使用 NLP 工具。

下面的演示将向您展示如何安装 API 客户端并使用可立即运行的 Java 代码示例构建您的 API 调用。最好的部分:您可以免费使用此 API;您需要做的就是在我们的网站上注册一个免费帐户 网站 并使用您的安全 API 密钥对调用进行身份验证(免费帐户每月产生 800 次 API 调用的限制,且额外承诺为零 - 非常适合小型项目)。

我们的第一步是安装 API 客户端。让我们添加对 pom.xml 存储库的引用:

 <repositories>  
 <repository>  
 <id>jitpack.io</id>  
 <url>[ https://jitpack.io](https://jitpack.io) </url>  
 </repository>  
 </repositories>

之后我们可以添加对 pom.xml 依赖项的引用:

 <dependencies>  
 <dependency>  
 <groupId>com.github.Cloudmersive</groupId>  
 <artifactId>Cloudmersive.APIClient.Java</artifactId>  
 <version>v4.25</version>  
 </dependency>  
 </dependencies>

现在我们可以转移到我们的控制器,将导入添加到我们文件的顶部:

 // 导入类:  
 //import com.cloudmersive.client.invoker.ApiClient;  
 //import com.cloudmersive.client.invoker.ApiException;  
 //import com.cloudmersive.client.invoker.Configuration;  
 //import com.cloudmersive.client.invoker.auth.*;  
 //导入 com.cloudmersive.client.ConvertWebApi;

最后,我们可以调用该函数,通过以下代码传递我们的 API 密钥和输入字符串参数:

 ApiClient defaultClient = Configuration.getDefaultApiClient(); // 配置API密钥授权:Apikey  
 ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");  
 Apikey.setApiKey("你的 API 密钥");  
 // 取消注释以下行以设置 API 密钥的前缀,例如“Token”(默认为 null)  
 //Apikey.setApiKeyPrefix("Token"); ConvertWebApi apiInstance = new ConvertWebApi();  
 HtmlToTextRequest 输入 = 新 HtmlToTextRequest(); // HtmlToTextRequest | HTML 转文本请求参数  
 尝试 {  
 HtmlToTextResponse 结果 = apiInstance.convertWebHtmlToTxt_0(input);  
 System.out.println(结果);  
 } 捕捉(ApiException e){  
 System.err.println("调用 ConvertWebApi#convertWebHtmlToTxt_0 时出现异常");  
 e.printStackTrace();  
 }

您可以将以下 JSON 结构用于我们的输入参数(访问我们的 API 控制台页面 对于 XML 等效项):

 {  
 “HTML”:“字符串”  
 }

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/23130/53450913

posted @ 2022-09-09 13:54  哈哈哈来了啊啊啊  阅读(1027)  评论(0编辑  收藏  举报