htmlunit设置只采集html,取消对css,javascript支持

 

引入htmlunit依赖

 <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
        <dependency>
            <groupId>net.sourceforge.htmlunit</groupId>
            <artifactId>htmlunit</artifactId>
            <version>2.15</version>
        </dependency>

 

 

使用

复制代码
package com.test.htmlunit;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

import java.io.IOException;

public class Test {

    public static void main(String[] args) {

        try {
            String url="http://www";
            WebClient webClient=new WebClient(BrowserVersion.CHROME);
            webClient.getOptions().setCssEnabled(false );         // 取消css支持
            webClient.getOptions().setJavaScriptEnabled(false );  // 取消javascript支持
            HtmlPage html=webClient.getPage(url);
            System.out.println(html.asXml());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }



}
复制代码

 

posted @   yvioo  阅读(160)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示