随笔 - 272  文章 - 7  评论 - 27  阅读 - 83万

lucene.net搜索文档(pdf,doc,txt)内容

复制代码
   public static void AddTxtDocument(string path, IndexWriter writer)
        {
            try
            {
                
                Document doc = new Document();
                string StrContent;
                if (Path.GetExtension(path).ToLower() == ".pdf")
                {
                    StrContent = pdfToTxt(path);
                }
                else
                {
                    using (StreamReader sr = new StreamReader(path, System.Text.Encoding.Default))
                    {
                        StrContent = sr.ReadToEnd();
                    }
                }
                doc.Add(new Field(CONTENT_KEY_NAME, StrContent, Field.Store.NO, Field.Index.ANALYZED));//内容
                doc.Add(new Field(TITLE,Path.GetFileNameWithoutExtension(path) , Field.Store.YES, Field.Index.ANALYZED));//标题
                doc.Add(new Field(FILE_KEY_NAME, path, Field.Store.YES, Field.Index.NO));//文件名
                doc.Add(new Field(CREATEDATE, new FileInfo(path).LastWriteTime.ToString(), Field.Store.YES, Field.Index.NO));//创建时间
                writer.AddDocument(doc);
            }
            catch (Exception)
            {
                
                throw;
            }
           
        }

        private static string   pdfToTxt(string pdffile)
        {



            PDDocument doc = PDDocument.load(pdffile);



            PDFTextStripper pdfStripper = new PDFTextStripper();



            return  pdfStripper.getText(doc);

        }
复制代码

lucene.net搜索pdf文件内容前,先要读取pdf文本,这必然要有一个转换,pdfbox就必不可少了,当然也还有其他方式(运行已有的exe),网上方法很多,

只要能把pdf图片转为字符串,lucene.net就能搜索得到了。

使用pdfbox需:

1.下载pdfbox的dll

2.再引用一下两个命名空间:

using org.pdfbox.pdmodel;
using org.pdfbox.util;

posted on   NLazyo  阅读(1552)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2013年6月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 1 2 3 4 5 6

点击右上角即可分享
微信分享提示