Apache Tika是一个用于文件类型检测和文件内容,其中PDF解析器可以读取pdf内容
所用jar包:
1 2 3 4 5 6 7 8 9 10 | <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-core</artifactId> <version> 1.20 </version> </dependency> <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</artifactId> <version> 1.16 </version> </dependency> |
public static void main(String[] args) { File file =new File("D:\\101.pdf"); BodyContentHandler handler=new BodyContentHandler(); //元数据对象 Metadata metadata=new Metadata(); FileInputStream inputStream=new FileInputStream(file); ParseContext parseContext=new ParseContext(); // PDFParser pdfParser=new PDFParser(); pdfParser.parse(inputStream, handler, metadata, parseContext); System.out.println("文件属性信息:"); for(String name: metadata.names()){ System.out.println(name+":"+metadata.get(name)); } System.out.println("pdf文件内容:"); System.out.println(handler.toString()); }
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏