识别pdf图片文字内容的方法

场景：pdf电子书是扫描的图片，需要将图片里的文字内容进行输出

1、首先下载QQ浏览器来打开pdf（pdf名称不要含有中文，否则后续代码识别会报错），QQ浏览器里面有逐页保存图片的功能，使用后相册里就有pdf里所有的图片。

2、手机连接电脑将所有图片导出

3、使用pytesseract第三库对图片进行识别，具体操作进入以下链接进行查看：

　　https://blog.csdn.net/m0_54240221/article/details/124699773

posted @ 2023-02-09 16:13 Frank13054 阅读(568) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· jmeter常用的prev方法

· pyqt-Qt Designer的使用

· python-图片文字识别

· PDF文档里的图片提取转文字

· 如何将图片中的文字识别出来？3个图片转word的方法

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 零经验选手，Compose 一天开发一款小游戏！
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！

公告

昵称： Frank13054
园龄： 6年6个月
粉丝： 2
关注： 2

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:(未解决，欢迎讨论)jmeter聚合报告响应时间与实际响应时间相差过大
@chrisxu0722 因为90%是指90%的响应时间小于这个指标值，而不是90%的响应时间等于这个值...
--Frank13054
2. Re:(未解决，欢迎讨论)jmeter聚合报告响应时间与实际响应时间相差过大
楼主知道原因了吗？我尝试了jemter和其它的压测工具，针对单接口都存在这样的问题。
--chrisxu0722
3. Re:(未解决，欢迎讨论)jmeter聚合报告响应时间与实际响应时间相差过大
还有这个问题，使用jmeter有解么？【对于 jmeter 的事务统计，由于的线程组中的所有 HTTP 请求都是线性的（前一个请求返回结果后，再下发下一个请求），而事实上浏览器可以达到 6 个并发。...
--乐乐上山打老虎
4. Re:(未解决，欢迎讨论)jmeter聚合报告响应时间与实际响应时间相差过大
请问找到原因了么，我这边也遇到相同问题，求解
我这个也是单接口的并发
--乐乐上山打老虎
5. Re:(未解决，欢迎讨论)jmeter聚合报告响应时间与实际响应时间相差过大
@追逐＆梦想事务统计确实是会有这个问题。但是我这个是单接口的并发，应该不存在这个问题。...
--Frank13054