读取pdf中的内容

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

       public static void main(String[] args) {

           //创建PdfDocument实例
           PdfDocument doc= new PdfDocument();

           //加载PDF文件
           doc.loadFromFile("test.pdf");

           StringBuilder sb= new StringBuilder();

           PdfPageBase page;

           //遍历PDF页面，获取文本
           for(int i=0;i<doc.getPages().getCount();i++){
               page=doc.getPages().get(i);
               sb.append(page.extractText(true));
           }

           FileWriter writer;

           try {
              //将文本写入文本文件
               writer = new FileWriter("ExtractText.txt");
               writer.write(sb.toString());
               writer.flush();
           } catch (IOException e) {
              e.printStackTrace();
}

doc.close();
}

posted @ 2019-12-10 16:14 红尘沙漏阅读(905) 评论(0) 编辑收藏举报

刷新页面返回顶部

红尘沙漏

读取pdf中的内容

公告