c# 讀取pdf查找數據



      private static int FindTextForPDF(string pdfFile,string strFindText = "IndexReader 指向索引文件夹")
        {
           
            int findText = -1;
            string[] lst=new string[]{};
            string strTemp = "d:\\a.txt";
            using (PDFWrapper pdf = new PDFWrapper(""))
            {

                pdf.LoadPDF(pdfFile);
                pdf.ExportText(strTemp, 1, pdf.PageCount, false, true);
                using (System.IO.StreamReader reader = new System.IO.StreamReader(strTemp))
                {
                    string strOut = reader.ReadToEnd();
                    lst = strOut.Split('');
                }
            }

            for (int i = 0; i < lst.Length; i++)
            {
                if (lst[i].IndexOf(strFindText) > 0)
                {
                    findText = i;
                    break;
                }
            }
            return findText;
        }

1.使用PDFLibNet組件。

2.由於版本的原因，這個組件只能在net2.0下使用。

3.調用代碼如下：

      static void Main(string[] args)
        {
            Console.WriteLine("查找的文字是:{0}", "IndexReader 指向索引文件夹");
            int m=  FindTextForPDF("d:\\Downs\\jj.pdf");
            Console.WriteLine("已經找到，當前頁是：{0}", m);
            Console.ReadKey();

        }

4.PDFWrapper

主要用到這個類，用於加載pdf文件，導出數據。

由於這個類的FindFirst方法，始終不能找到數據，因此考慮導出數據到txt文件，然後讀取txt文件進行查找。

這個類，可以有多種導出數據的方法。如wod，html，jpg等。

PDFLibNet組件下載files.cnblogs.com/Teco/Debug.rar

posted @ 2012-04-20 21:52 無限遐想阅读(1716) 评论(0) 编辑收藏举报

刷新页面返回顶部

無限遐想

自由飞翔

每天一点

c# 讀取pdf查找數據

公告

無限遐想

自由飞翔 每天一点

c# 讀取pdf查找數據

公告

自由飞翔

每天一点