solr6.6 索引 word文档

  本文是solr6.6 导入 pdf/doc/txt/json/csv/xml文件 的继续,上篇在索引文件,唯独07格式的word文档不能正常抽取数据,进过研究测试终于,记录下属过程。

  其它步骤基本和solr6.6 导入 pdf/doc/txt/json/csv/xml文件一样,不同的地方如下:

  1、配置solrconfig.xml不同,改为如下:

    增加两个引用

<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
  <lib dir="./lib" regex=".*\.jar"/>

 

   

 

    因为在导入过程中用到了下面两个jar包

    

    因为在text字段中涉及到中文分词,要用到下面两个jar包,所以单独放在test下面lib(该文件夹下只有两个文件,和上次的不同)文件夹下面

    

    data-config.xml文件内容:

    

    导入文件:

    

    导入结果:

    

    同样,xls/xlsx/ppt/pptx类型的文件索引方式和word一样

 

posted on 2017-12-04 17:23  shaomine  阅读(2943)  评论(0编辑  收藏  举报