Configuring MOSS 2007 to search pdf documents
2009-11-05 10:40 Leason Li 阅读(698) 评论(2) 编辑 收藏 举报搜索功能,尤其企业级的搜索,对于企业里面的KM来说是非常重要的,试想,企业里面沉淀下来的上百G甚至几个TB的数据,怎么样来更加方便的检索和精确的定位,是很多企业所关心的。在SPS 2003年代,要想实现信息的精确定位和检索,是有难度的,到了MOSS 2007的时代后,一切都变了,微软从底层架构实现了对搜索的支持,这种搜索是全文搜索的爬网式检索,对于性能方面,微软当然也有考虑,利用了索引的技术,使除第一次爬网外的速度有了明显的提升,而且微软针对企业里的真正需求,单独包装了MOSS for search的独立产品来卖,可见微软对企业级信息检索的重视。
由于企业里面的文档,往往不仅仅是OFFICE系列格式的,比如还有最平常见到的PDF格式的文档,MOSS默认情况下是不兼容的,当然,我们可以把PDF上传到MOSS里面的文档库,在客户端装了adobe 公司的 reader或者Acrobat后,就可以浏览,但是想实现对PDF的全文爬网式搜索是不可以的,接下来和大家分享下Configuring MOSS 2007 to search pdf documents的详细步骤。
在分享具体步骤之前,有必要和大家交代下adobe公司的 Adobe PDF IFilter v6.0这个产品,想要实现在MOSS平台上对PDF文档的兼容,这个产品是必须的,如果客户端有安装reader 7.0.5及以上的版本或Acrobat系列的产品,就不需要装此插件了,安装成功后,我们可以到注册表中检查此插件是否安装成功,步骤如下
开始/运行/regedit/ HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf
此注册表子项必须包含如下注册表项,表明安装成功:
Type: REG_MULTI_SZ
Data: {4C904448-74A9-11D0-AF6E-00C04FD8DC02}
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Setup\Filters\.pdf
Name: Default
Type: REG_SZ
Data: (value not set)
• Name: Extension
Type: REG_SZ
Data: pdf
• Name: FileTypeBucket
Type: REG_DWORD
Data: 0x00000001 (1)
• Name: MimeTypes
Type: REG_SZ
Data: application/pdf
Configuring MOSS 2007 to search pdf documents步骤如下:
1:下载17*17 的图标,地址如下 http://www.adobe.com/misc/linking.html ,并命名为 icpdf.gif
2:把 icpdf.gif拷入如下位置 C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\12\Template\Images
3:修改 C:\Program Files\Common Files\Microsoft Shared\Web server extensions\12\Template\Xml\ 路径下的 DOCICON.XML文件,添加内容如下:
<Mapping Key="pdf" Value="icpdf.gif"/>
4:开始/运行/iisreset
5: 添加PDF文件类型为MOSS2007平台的搜索文件类型,进入MOSS 2007的管理中心\SharedServices1\搜索设置\文件类型\新建文件类型\pdf\确定
6:执行全文爬网(当然执行这个动作之前必须在某个文档库里面上传PDF文件),进入MOSS 2007的管理中心\SharedServices1\搜索设置\内容源和爬网计划\开始所以爬网
这些步骤完成之后, 就可以在文档库中看到上传的PDF文件前面的类型有一个的图标,表明我们上面的设置成功。此时其实对于PDF文件还不能实现全文式爬网搜索,只能针对文件名的关键字来进行检索,还必须修改注册表才能对PDF兼容。
7:开始\运行\regedit\确定\
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Applications\<GUID>\Gather\Search\Extensions\ExtensionList\
右键\编辑\新建\字符串值\输入38\确定\右键38\修改\在值数据中输入pdf\确定
8:开始\运行\cmd\确定\ set stop spsearch
9: 开始\运行\cmd\确定\ set start spsearch
10: 执行全文爬网进入MOSS 2007的管理中心\SharedServices1\搜索设置\内容源和爬网计划\开始所以爬网.
效果如下:
整个配置的过程中需要注意的地方是上传的PDF文件一定要签入,才能搜索得到
作者:leening_li
出处:http://www.cnblogs.com/leening/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。