moss 2007 对pdf 内容进行爬网

1 下载Adobe PDF IFilters 6.0

http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611

这个IFilters 6.0,我经验证支持 windows server 2003 sp2 32位操作系统;windows server 2008 32位操作系统;

2 安装ifilter60.exe

3 下载pdf icon图片

http://www.adobe.com/misc/linking.html  

4 拷贝图片到"C:/Program Files/Common Files/Microsoft Shared/Web Server Extensions/12/Template/Images"

5 到C:/Program Files/Common Files/Microsoft Shared/Web server extensions/12/Template/Xml/

编辑DOCICON.XML 添加如下内容:<Mapping Key="pdf" Value="icpdf.gif"/>

6 重新启动iis:在运行中输入iisreset即可。

如果有问题,可以参考如下内容:

要解决此问题,确保 Windows SharePoint Services 搜索服务被配置到在其安装 Adobe PDF IFilter 每个服务器的爬网 PDF 文档。 若要安装 Adobe PDF IFilter 并配置 Windows SharePoint Services 搜索服务,请按照下列步骤操作:

  1. 下载并安装 Adobe PDF IFilter 从下面的 Adobe Web 站点:
    http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611 (http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611)
    Microsoft 提供第三方联系信息来帮助您查找技术支持。 该联系人信息可能会更改恕不另行通知。 Microsoft 不保证该第三方联系人信息的准确性。
  2. 添加下面的注册表项,并将注册表项值设置为 pdf
    HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Shared Tools/Web Server Extensions/12.0/Search/Applications/<GUID>/Gather/Search/Extensions/ExtensionList/38
    要这样做,请按下列步骤操作:
    1. 单击 开始 ,单击 运行 ,键入 regedit ,然后单击 确定
    2. 查找,并单击以下注册表子项:
      HKEY _ LOCAL _ MACHINE/SOFTWARE/Microsoft/Shared Tools/Web Server Extensions/12.0/Search/Applications/ GUID /Gather/Search/Extensions/ExtensionList
    3. 编辑 菜单上指向 新建 ,然后单击 字符串值
    4. 键入 38 ,然后按 ENTER 键。
    5. 右键单击您创建,注册表项,然后单击 修改
    6. 在该 数值数据 框键入 pdf ,然后单击 确定
  3. 验证有以下两个注册表子项,并且它们包含适当的值。

    请注意 在服务器上安装了 Adobe PDF IFilter 时,将创建这些注册表子项和它们包含的值。
    • HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Shared Tools/Web Server Extensions/12.0/Search/Setup/ContentIndexCommon/Filters/Extension/.pdf
      此注册表子项必须包含以下注册表项:
      • 名称: 默认
        类型: REG _ MULTI _ SZ
        数据: {4C 904448-74A9-11 D 0-AF6E-00C04FD8DC02}
    • HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Shared Tools/Web Server Extensions/12.0/Search/Setup/Filters/.pdf
      此注册表子项必须包含在下面的注册表项:
      • 名称: 默认
        类型: REG _ SZ
        数据: (数值未设置)
      • 名称: 扩展
        类型: REG _ SZ
        数据: pdf
      • 名称: FileTypeBucket
        类型: REG _ DWORD
        数据: 0x00000001 (1)
      • 名称: MimeTypes
        类型: REG _ SZ
        数据: application/pdf
  4. 将 PDF 文档上载到 Windows SharePoint Services 3.0 网站中。
  5. 停止,然后启动 Windows SharePoint Services 搜索服务。 要这样做,请按下列步骤操作:
    1. 单击 开始 ,单击 运行 ,键入 cmd ,然后单击 确定
    2. 停止 Windows SharePoint Services 搜索服务。 为此,命令提示符下键入 net stop spsearch ,然后按 Enter 键。
    3. 启动 Windows SharePoint Services 搜索服务。 为此,命令提示符下键入 net start spsearch ,然后按 Enter 键。
    4. 键入 exit 退出命令提示符。

请注意 如果 Windows SharePoint Services 3.0 网站已有 PDF 文档,在服务器上安装了 Adobe PDF IFilter 之前,必须执行额外的步骤。 安装并在服务器上配置 Adobe PDF IFilter 后,修改现有的 PDF 文档,在服务器上的属性。 例如,修改将元数据属性 (如在的标题,或重再次上载到 Windows SharePoint Services Web 站点的 PDF 文档。 在执行此操作 Windows SharePoint Services 搜索服务爬再次网现有的 PDF 文档。

 

参考文章如下:

http://msmvps.com/blogs/sundar_narasiman/archive/2008/02/06/configuring-moss-2007-to-search-pdf-documents-install-and-configure-pdf-ifilters.aspx

http://support.microsoft.com/kb/927675

posted @ 2009-10-22 14:48  深潭  阅读(260)  评论(0编辑  收藏  举报