nutch的index-writers.xml
nutch的index-writers.xml
出现在较高版本的nutch中
该文件出现在比较高的nutch版本,对于一些比较低的nutch版本中并没有这个配置文件,如:在nutch1.7中并没有这个index-writers.xml
。
在版本nutch1.7中对于索引的映射配置文件在solrindex-mapping.xml
,该文件是和solr服务器建立索引映射的配置文件。
index-writers.xml解读
官网对该配置文件的解析:IndexWriters - NUTCH - Apache Software Foundation
目前官方支持以下索引服务的配置:
Indexer | Description |
---|---|
indexer-solr | Indexer for a Solr server |
indexer-rabbit | Indexer for a RabbitMQ server |
indexer-dummy | Indexer usually used for debugging, it writes in a plain text file |
indexer-elastic | Indexer for an Elasticsearch server |
indexer-elastic-rest | Indexer for Elasticsearch, but using Jest to connect with the REST API provided by Elasticsearch |
indexer-cloudsearch | Indexer for Amazon CloudSearch |
indexer-csv | Indexer for writing documents to a CSV file |
官方提供的index-writers.xml已经提供了多个索引服务的配置,这里只介绍solr,其他的writers类似,具体看官方文档。
<writer id="indexer_solr_1" class="org.apache.nutch.indexwriter.solr.SolrIndexWriter">
<!--服务基础参数配置-->
<parameters>
<param name="type" value="http"/>
<!--solr中core的地址-->
<param name="url" value="http://localhost:8983/solr/nutch"/>
<param name="collection" value=""/>
<param name="weight.field" value=""/>
<param name="commitSize" value="1000"/>
<!--solr服务器登录认证(如果solr没配置登录的账号密码,默认没有)-->
<param name="auth" value="false"/>
<param name="username" value="username"/>
<param name="password" value="password"/>
</parameters>
<mapping>
<copy>
<!-- <field source="content" dest="search"/> -->
<!-- <field source="title" dest="title,search"/> -->
</copy>
<!--nutch中解析出来的一些字段信息重命名-->
<rename>
<field source="metatag.description" dest="description"/>
<field source="metatag.keywords" dest="keywords"/>
</rename>
<!--映射时移除segment字段-->
<remove>
<field source="segment"/>
</remove>
</mapping>
</writer>
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)