C# 使用Aspose.Pdf读取Pdf表格

pdf文件内容：

1.上面我们有一个pdf文件，内容为表格形式的，在使用Aspose.Pdf读取的时候，如果不定义读取时的TextExtractionOptions，我们看一下读取的内容是什么样子的?

可以看到在读取pdf文字的时候，并没有按照表格划分，而是视觉上同一行的文字被划分到同一行，这样在处理数据的时候就比较麻烦。

2.我们定义一下TextExtractionOptions试试：

var textExtractionOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);

我们可以看到这时候的文字已经按照单元格分开了。

参考代码：

复制代码

 1 using Aspose.Pdf;
 2 using Aspose.Pdf.Text;
 3 using Aspose.Pdf.Text.TextOptions;
 4 
 5 namespace Test
 6 {
 7     class Program
 8     {
 9         static void Main(string[] args)
10         {
11             Document pdfDocument = new Document(@"d:\pdf.pdf");
12             var textExtractionOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);
13             var textSearchOptions = new TextSearchOptions(true);
14             TextAbsorber textAbsorber = new TextAbsorber(textExtractionOptions, textSearchOptions);
15             pdfDocument.Pages.Accept(textAbsorber);
16             string content = textAbsorber.Text;
17         }
18     }
19 }

复制代码

posted @ 2021-05-11 13:31 新* 阅读(4209) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）
· 浏览器原生「磁吸」效果！Anchor Positioning 锚点定位神器解析

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· .NET10 - 预览版1新功能体验（一）

公告

昵称：新*
园龄： 6年6个月
粉丝： 66
关注： 34

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔分类 (103)

随笔档案 (130)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:python在Linux环境下访问Windows共享目录
可以，看了不少，这个真实有效！
--可乐不是dog
2. Re:Sanic Web接口：Request Entity Too Large
mark
--我的名字长沙雕跟着念
3. Re:IIS：执行此操作时出错。文件名: \\?\D:\****\web.config
亲测有用。我的环境是Win10企业版。
--callme璐璐
4. Re:C#将文件传给python的sanic接口
@我的名字长沙雕跟着念 python也你自己写吗😒 是的，自己写...
--十四年新*
5. Re:C#将文件传给python的sanic接口
python也你自己写吗😒
--我的名字长沙雕跟着念
6. Re:getStar
写的很好，备案通过
--我的名字长沙雕跟着念
7. Re:C#：关键字指南
写的很不错，但是建议可以再加一个目录，左侧的目录一目了然，效果会更好
--大雄小顾
8. Re:C#将HTML表格<TABLE>转换成DataTable
666
--彭二狗的牵引绳
9. Re:C#：kafka
vs2013 winform软体无法引用librdkafka.dll，运行程序报错:System.InvalidOperationException: Error while loading libr...
--wchl彼岸花开
10. Re:WPF控制PasswordBox获取焦点后光标的位置
楼主这个点击用户名，焦点自动切换到password咋实现的
--.Jc
11. Re:Vue.js+Element UI实现二维表格展示源数据
合计应该怎么做呢大佬
--菠萝啊菠萝蜜
12. Re:WPF设置TextBox内容为空时的提示文字的两种方式
你这个不对吧根本修改不了文本框里面的内容
--贩卖日落的小孩
13. Re:文字反向输出：WinForm实现
这个是干啥的
--郗浚琦
14. Re:文字反向输出：WinForm实现
我多少得试一下你的这玩意~
--予时光宁静以致远
15. Re:文字反向输出：WinForm实现
你的页面好有意思，给你个赞
--小猫只摸鱼
16. Re:Windows：搭建ChatGLM-6B
@闪存第一涩我很抱歉，我不确定您想要我做什么，请提供更多信息，我会尽力回答您的问题。...
--十三年新*
17. Re:Windows：搭建ChatGLM-6B
快~，用力
--闪存第一涩
18. Re:C#：C#终结器（析构函数）
@赤原 😀...
--十三年新*
19. Re:C#：C#终结器（析构函数）
哟，阿新，刚看到终结器，就翻到你的文章了
--赤原
20. Re:Oracle存储过程（Stored Procedure）使用自定义类实体参数
泰裤辣！！
--闪存第一深情
21. Re:Oracle存储过程（Stored Procedure）使用自定义类实体参数
@但乱红尘熊 hah~，🤣...
--十三年新
22. Re:Oracle存储过程（Stored Procedure）使用自定义类实体参数
这零食有点硌牙
--但乱红尘熊
23. Re:花漾文字：WinForm实现
'花样文字 js版本'.split('').reduce((i,c)=> i + (c+'=͟͟͞͞'),'')
--Pro成
24. Re:文字反向输出：WinForm实现
@十二年新 ‮啊‮哈‮哈...
--我是真的Carry
25. Re:文字反向输出：WinForm实现
@我是真的Carry 🤣最上面还有七年新呢，懒得改了...
--十二年新
26. Re:文字反向输出：WinForm实现
作者咋还是九年新？
--我是真的Carry
27. Re:WPF获取验证码倒计时
写了一个寂寞，什么都没有实现！
--铉桦
28. Re:VS(Visual Studio)调试时F10快捷键无效
无聊
--guyuntech
29. Re:花漾文字：WinForm实现
人才，哈哈。我建议做出双向转换，这样你发的敏感信息我们用你的工具才能看到啊
--会长
30. Re:C#将DataTable按固定个数拆分成多个表
1 ds.Tables.Add(orgTable.Copy()); 2 table.TableName = "table" + i; ds.Tables.Add(table);...
--wumzb

喜欢请打赏

扫描二维码打赏

支付宝打赏

AI FOR CODE 大赛