摘要:
本文参考:Lucene4.1:利用Filter实现两组关键词组合查询1. 需求根据客户名称,查询客户网络上面的负面信息。如客户名称为”盐城 盐城市“,并自定义负面关键词“贪污 受贿 被曝 曝光 小三 裸照”等,则是要求将包含这些负面关键词且包含客户名称的信息查询出来。注意事项:客户名称可定义多个(10个以内),负面关键词可以定义多个(300个以内)。分析如果只用一个参数q去定义查询,很可能查询字符串长度会溢出,查询q应该形如:((盐城 OR 盐城市) AND 贪污) OR ((盐城 OR 盐城市) AND 受贿)......所以本文采用Filter的形式来解决这一问题。2. 解决步骤步骤一:将 阅读全文
摘要:
使用SolrJ组件创建索引时,以下问题记录一下,涉及文档打分、日期字段处理、多值字段处理等:1. 需要对文档进行打分// 对title/content字段进行处理float boost = IndexTool.getBoost(info.getWebTitle());doc.addField("webTitle", info.getWebTitle(), boost);boost = IndexTool.getBoost(info.getWebContent());doc.addField("webContent", info.getWebContent 阅读全文
摘要:
1. 概述正常数据结构一个是需要考虑中文分词,二个是考虑是否索引,是否分词,是否存储等等。下面的示范用到了三种类型的数据:1). 字段需要分词、需要索引、需要存储,如:网页中的标题、内容等字段。2). 字段需要索引,但不需要分词,需要存储,如:网页的发布时间等内容。3). 字段不需要索引,不需要分词,但需要存储,如:引用的图片位置。不存在不需要索引、也不需要分词,也不需要存储的字段,因为这样的字段在Lucene中无意义。2. 示范配置 ... 阅读全文
摘要:
1. 环境Tomcat下载地址:http://tomcat.apache.org/Solr下载地址:http://lucene.apache.org/solr/IKAnalyzer中文分词器下载地址:http://code.google.com/p/ik-analyzer/downloads/listmmseg4j中文分词器下载地址:http://code.google.com/p/mmseg4j/downloads/listLucene下载地址:http://lucene.apache.org/2. 实现步骤1). 建立基本环境参考:Solr4:Tomcat7下面配置Solr2). 配置中文 阅读全文
摘要:
1. 需求 根据客户名称,查询客户网络上面的负面信息。如客户名称为”盐城 盐城市“,并自定义负面关键词“贪污 受贿 被曝 曝光 小三 裸照”等,则是要求将包含这些负面关键词且包含客户名称的信息查询出来。 注意事项:客户名称可定义多个(10个以内),负面关键词可以定义多个(300个以内)。 分析: 如 阅读全文