java实现pdf转word
1.pdfToWord 文件内容:
package com.sswc.fileex.mapping; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; import java.io.Writer; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class pdfToWord { public static void main(String[] args) { try { String pdfFile = "D:\\programming\\sxp\\pdfjs\\web\\files\\JP6\\JP6-0-2006.pdf"; PDDocument doc = PDDocument.load(new File(pdfFile)); int pagenumber = doc.getNumberOfPages(); pdfFile = pdfFile.substring(0, pdfFile.lastIndexOf(".")); String fileName = pdfFile + ".doc"; File file = new File(fileName); if (!file.exists()) { file.createNewFile(); } FileOutputStream fos = new FileOutputStream(fileName); Writer writer = new OutputStreamWriter(fos, "UTF-8"); PDFTextStripper stripper = new PDFTextStripper(); stripper.setSortByPosition(true);// 排序 stripper.setStartPage(1);// 设置转换的开始页 stripper.setEndPage(pagenumber);// 设置转换的结束页 stripper.writeText(doc, writer); writer.close(); doc.close(); System.out.println("pdf转换word成功!"); } catch (IOException e) { e.printStackTrace(); } } }
2.maven依赖
<dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.1</version> </dependency>
工作中有这个需求,但是转出来的word不是想要的格式,所以后面没有用,要是有需求的朋友可以转换过来看看,是否是自己所需要的。