2013 年 2月 20 日随笔档案 - 那些年的事儿

2013年2月20日

摘要：本文参考：Lucene4.1：利用Filter实现两组关键词组合查询1. 需求根据客户名称，查询客户网络上面的负面信息。如客户名称为”盐城盐城市“，并自定义负面关键词“贪污受贿被曝曝光小三裸照”等，则是要求将包含这些负面关键词且包含客户名称的信息查询出来。注意事项：客户名称可定义多个（10个以内），负面关键词可以定义多个（300个以内）。分析如果只用一个参数q去定义查询，很可能查询字符串长度会溢出，查询q应该形如：((盐城 OR 盐城市) AND 贪污) OR ((盐城 OR 盐城市) AND 受贿)......所以本文采用Filter的形式来解决这一问题。2. 解决步骤步骤一：将阅读全文

posted @ 2013-02-20 16:31 那些年的事儿阅读(6170) 评论(0) 推荐(0) 编辑

Solr4：创建索引时的一些建议

摘要：使用SolrJ组件创建索引时，以下问题记录一下，涉及文档打分、日期字段处理、多值字段处理等：1. 需要对文档进行打分// 对title/content字段进行处理float boost = IndexTool.getBoost(info.getWebTitle());doc.addField("webTitle", info.getWebTitle(), boost);boost = IndexTool.getBoost(info.getWebContent());doc.addField("webContent", info.getWebContent 阅读全文

posted @ 2013-02-20 16:24 那些年的事儿阅读(740) 评论(0) 推荐(0) 编辑

Solr4：设计数据结构，就是配置schema.xml

摘要： 1. 概述正常数据结构一个是需要考虑中文分词，二个是考虑是否索引，是否分词，是否存储等等。下面的示范用到了三种类型的数据：1). 字段需要分词、需要索引、需要存储，如：网页中的标题、内容等字段。2). 字段需要索引，但不需要分词，需要存储，如：网页的发布时间等内容。3). 字段不需要索引，不需要分词，但需要存储，如：引用的图片位置。不存在不需要索引、也不需要分词，也不需要存储的字段，因为这样的字段在Lucene中无意义。2. 示范配置 ... 阅读全文

posted @ 2013-02-20 15:57 那些年的事儿阅读(1983) 评论(0) 推荐(1) 编辑

Solr4：环境搭建，Tomcat7+Solr4.x+中文分词+多核

摘要： 1. 环境Tomcat下载地址：http://tomcat.apache.org/Solr下载地址：http://lucene.apache.org/solr/IKAnalyzer中文分词器下载地址：http://code.google.com/p/ik-analyzer/downloads/listmmseg4j中文分词器下载地址：http://code.google.com/p/mmseg4j/downloads/listLucene下载地址：http://lucene.apache.org/2. 实现步骤1). 建立基本环境参考：Solr4：Tomcat7下面配置Solr2). 配置中文阅读全文

posted @ 2013-02-20 15:44 那些年的事儿阅读(1847) 评论(0) 推荐(0) 编辑

Lucene4：利用Filter实现两组关键词组合查询

摘要： 1. 需求根据客户名称，查询客户网络上面的负面信息。如客户名称为”盐城盐城市“，并自定义负面关键词“贪污受贿被曝曝光小三裸照”等，则是要求将包含这些负面关键词且包含客户名称的信息查询出来。注意事项：客户名称可定义多个（10个以内），负面关键词可以定义多个（300个以内）。分析：如阅读全文

posted @ 2013-02-20 13:57 那些年的事儿阅读(1672) 评论(1) 推荐(0) 编辑

公告