htmlunit 基础01

说明

gradle引用

// 抓取网页
// https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit
compile group: 'net.sourceforge.htmlunit', name: 'htmlunit', version: '2.44.0'
// 解析网页
// https://mvnrepository.com/artifact/org.jsoup/jsoup
compile group: 'org.jsoup', name: 'jsoup', version: '1.13.1'

案例

import com.gargoylesoftware.htmlunit.BrowserVersion
import com.gargoylesoftware.htmlunit.WebClient
import com.gargoylesoftware.htmlunit.html.DomElement
import com.gargoylesoftware.htmlunit.html.HtmlPage
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_68)
// 启用JS解释器,默认为true
webClient.getOptions().setJavaScriptEnabled(true)
// 禁用css支持
webClient.getOptions().setCssEnabled(false)
// js运行错误时,是否抛出异常
webClient.getOptions().setThrowExceptionOnScriptError(false)
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false)
// 设置连接超时时间
webClient.getOptions().setTimeout(10 * 1000)
HtmlPage htmlPage = webClient.getPage("https://news.sina.com.cn/roll/")
// 等待JS执行,再访问的时候需要给JS一些执行时间。
webClient.waitForBackgroundJavaScript(10 * 1000)
// 返回所有的文本
String text = htmlPage.asText()
// 返回html代码
String html = htmlPage.asXml()
// 获取指定 Dom 元素
DomElement spanDom = htmlPage.getElementByName("span")
// 获取内容
spanDom.getTextContent()
// 点击操作
spanDom.click()
posted @   duchaoqun  阅读(178)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
点击右上角即可分享
微信分享提示