Java实现pdf转html
引入pdf2dom
<dependency>
<groupId>net.sf.cssbox</groupId>
<artifactId>pdf2dom</artifactId>
<version>1.8</version>
</dependency>
测试代码:
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringWriter;
import java.io.Writer;
import javax.xml.parsers.ParserConfigurationException;
import org.apache.commons.io.FileUtils;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.fit.pdfdom.PDFDomTree;
import org.fit.pdfdom.PDFDomTreeConfig;
import org.junit.Test;
public class TestPDFDomTree {
public static String parseWithPdfDomTree(InputStream is, int startPage, int endPage, PDFDomTreeConfig config)
throws IOException, ParserConfigurationException {
PDDocument pdf = PDDocument.load(is);
PDFDomTree parser = new PDFDomTree(config);
parser.setStartPage(startPage);
parser.setEndPage(endPage);
Writer output = new StringWriter();
parser.writeText(pdf, output);
pdf.close();
String htmlOutput = output.toString();
return htmlOutput;
}
@Test
public void test_convert_pdf_to_html() throws Exception {
PDFDomTreeConfig config = PDFDomTreeConfig.createDefaultConfig();
config.setImageHandler(PDFDomTreeConfig.saveToDirectory(new File("/mnt/res/")));
config.setFontHandler(config.getImageHandler());
String html = parseWithPdfDomTree(new FileInputStream("/mnt/电子版.pdf"), 0, 10, config);
FileUtils.write(new File("/mnt/test.html"), htmlOutput, "utf-8");
}
}
感谢您的认真阅读。
如果你觉得有帮助,欢迎点赞支持!
不定期分享软件开发经验,欢迎关注作者, 一起交流软件开发:
关注作者
作者: JadePeng
出处:https://www.cnblogs.com/xiaoqi/p/pdfdom.html
版权:本文采用「署名-非商业性使用-相同方式共享 4.0 国际(欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接) 」知识共享许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了