这是个广告不要点击哈哈哈

随笔 - 42 文章 - 0 评论 - 14 阅读 - 14万

Tika解析pdf信息

Apache Tika是一个用于文件类型检测和文件内容，其中PDF解析器可以读取pdf内容

所用jar包：

1

2

3

4

5

6

7

8

9

10

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.20</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.16</version>
</dependency>

　　

复制代码

public static void main(String[] args) {
        File file =new File("D:\\101.pdf");
        BodyContentHandler handler=new BodyContentHandler();
        //元数据对象
        Metadata metadata=new Metadata();

        FileInputStream inputStream=new FileInputStream(file);

        ParseContext parseContext=new ParseContext();
        //
        PDFParser pdfParser=new PDFParser();

        pdfParser.parse(inputStream, handler, metadata, parseContext);
        System.out.println("文件属性信息：");
        for(String name: metadata.names()){
            System.out.println(name+":"+metadata.get(name));
        }
        System.out.println("pdf文件内容：");
        System.out.println(handler.toString());

    }

复制代码

posted on 2022-03-15 18:10 水流花落阅读(772) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· python文件查找指定位置替换字符串

· shutil删除文件夹异常

· Go 语言实现读取 pdf 文件内容

· 文档提取工具 apache/tika

· Java用PDFTextStripper来解析pdf文件提取文字

阅读排行：
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 葡萄城 AI 搜索升级：DeepSeek 加持，客户体验更智能
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏

公告

昵称：水流花落
园龄： 8年8个月
粉丝： 3
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

1. @WebServlet用注解来实现servlet和url的映射(3)

最新评论

1. Re:bootstrap inputfile 使用-上传，回显
fileuploaded回调事件，这里的 $("#"+previewId).attr("fileName", fileName) ; 赋不了值我也遇到9楼的问题，原因是 previewId 是含有小...
--超人先生1016
2. Re:bootstrap inputfile 使用-上传，回显
fileuploaded回调事件，这里的 $("#"+previewId).attr("fileName", fileName) ; 赋不了值
--谦德
3. Re:bootstrap inputfile 使用-上传，回显
var fileNames="xxx.jpg,xxx.mp4"; 这个路径是绝对路径?我咋显示不行呢
--yl_diao
4. Re:bootstrap inputfile 使用-上传，回显
var fileNames="xxx.jpg,xxx.mp4"; 这个路径是啥
--yl_diao
5. Re:bootstrap inputfile 使用-上传，回显
我想问下大佬，你这预览的图片，怎么上传的
--youshutup