关山明月

导航

2011年10月16日 #

<转>Extract Text from PDF in C# (100% .NET)

摘要: This article is from http://www.codeproject.com/KB/cs/PDFToText.aspx.IntroductionThis is a 100% .NET solution to extract text from PDF documents.BackgroundDan Letecky posted a nice code on how to extract text from PDF documents in C# based on PDFBox. Although his solution works well it has a drawbac 阅读全文

posted @ 2011-10-16 23:26 关山明月 阅读(434) 评论(0) 推荐(0) 编辑

利用iTextSharp提取PDF文件中的文本内容

摘要: 最近测试中需要对比两个PDF文件的内容,当然只是文字没有图表的,但是没有现成的工具可用。于是我的想法是先把PDF转换为Text,然后再对比Text的内容。现在问题的关键变成了如何提取PDF中的文本,在网上找了一下,发现iTextSharp可以满足我的需求。所以我把它写下来供大家参考,关于PDF文件对比如果谁有更好的解决办法,欢迎交流! 这里我创建了一个Windows Form的程序,它的界面如下。点击Browse button,选择需要提取文本内容的PDF文件,点击Open button,该PDF文件的文本内容将会显示在下面的textbox里。 下面是它的详细步骤: 1. 打开VS2010.. 阅读全文

posted @ 2011-10-16 16:51 关山明月 阅读(1876) 评论(0) 推荐(0) 编辑