这是个广告不要点击哈哈哈

随笔 - 42  文章 - 0  评论 - 14  阅读 - 14万 

Apache Tika是一个用于文件类型检测和文件内容,其中PDF解析器可以读取pdf内容

所用jar包:

1
2
3
4
5
6
7
8
9
10
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.20</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.16</version>
</dependency>

  

 

复制代码
public static void main(String[] args) {
        File file =new File("D:\\101.pdf");
        BodyContentHandler handler=new BodyContentHandler();
        //元数据对象
        Metadata metadata=new Metadata();

        FileInputStream inputStream=new FileInputStream(file);

        ParseContext parseContext=new ParseContext();
        //
        PDFParser pdfParser=new PDFParser();

        pdfParser.parse(inputStream, handler, metadata, parseContext);
        System.out.println("文件属性信息:");
        for(String name: metadata.names()){
            System.out.println(name+":"+metadata.get(name));
        }
        System.out.println("pdf文件内容:");
        System.out.println(handler.toString());

    }
复制代码

 

 
posted on   水流花落  阅读(772)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏
点击右上角即可分享
微信分享提示