1.6.1 什么是 Indexing
这部分描述了建立索引的过程:添加内容到solr索引中,如果有需要,修改内容或者删除它.通过添加内容到索引里边,我们使其内容可以搜索.
solr索引能够接收不同来源的数据,xml文件,逗号分隔值的(CVS)文件,数据库,普通格式文件如Word或者PDF.
这里有三种不同的方式来加载数据到索引中:
- 使用以Apache Tika 为基础的Solr Cell框架,用于摄取二进制文件或者结构化文件,比如Office, Word, PDF, 和其他所有格式.
- 通过发送HTTP请求到solr服务器来上传XML文件.
- 通过solr的java客户端API来写一个自定义的java应用来抽取数据.(如果你正在使用一个应用程序,如内容管理系统,使用java的客户端API也许是一个不错的选择.)
不管抽取数据的方法,有一个普通的带有基本数据结构的数据添加到索引中:一个document包含多个fields,每一个field包含一个name和content,content可能为空.其中一个field被设计为唯一主键ID.