知识管理系统Data Solution研发日记之十 海量Office文档搜索
经过前面两篇文章的介绍,《分享制作精良的知识管理系统 博客备份程序 Site Rebuild》和《分享制作精良的知识管理系统 SQL Server文档数据库配置 完美实现博客文章的的下载,存储和浏览》,你所喜欢的博客内容已经下载到了自己的本机磁盘中,如下图所示的,海量的文档知识库,已经存在于您的电脑中
这么多文档,你当然可以根据自己的喜好来查看,但是,如何在这么多的文档中,搜索出您所需要的文章内容,这是迫切需要解决的问题。
从技术角度来说,文档已经保存到SQL Server服务器中,运用SQL Server 的Full text search技术,可是实现文档检索。这适用于文档保存到服务器中的一种情况。如果您不喜欢把文档存到数据库中,则应该阅读下面的文章来找到答案。
关于如何Office 系列的文档中搜索,已经有很多很好的解决方案。我们经常遇到的是,在一个Word文档中搜索,而这里要实现的是,在一批的WORD文件中搜索,这一点的转变带来了巨大的麻烦。网络上,推荐的软件是Wordpipe-v5.6.5,实现在一批Office文档中搜索。我在这里推荐的程序是Copernic.Desktop.Search.Corporate。你知道的原因之一是,好用,绿色,又可以有永久使用权,所以我推荐它。
启动程序,它的主界面效果如下,可以搜索桌面中的任何文档,包括图片,视频,邮件。
到Tools中设置我们存放文档的路径,在我的磁盘中是E:\Document
就这样,然后就是等待它在系统的空闲时间对文档建立索引,以方便查找。这个过程消耗的时间会比较长,请耐心等待。
有了这么好的工具,管理海量的Office文档不成问题。Data Loader也考虑到了软件版权的原因,增加Index Builder搜索工具,基本原理是使用Primary Interop Assembly对Office文档进行操作,效率和可用性肯定比不上专业的软件。
Data Loader也会集成自己的文档搜索器,实现在对数据库服务器中的文档搜索和本机磁盘文件的搜索。对于搜索服务器文档,可选择SQL Server 内置的Full-text search。对于本机磁盘中的文档,可选择Lucene这样的第三方类库型实现搜索。这里有一个例子程序,演示如何使用Lucene.NET实现本机磁盘文件的搜索。
Desktop Search Application: Part 1 http://www.codeproject.com/KB/office/desktopsearch1.aspx 效果是这样的
请到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下载最新版的Data Loader。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库