04 2015 档案

Solrj和Solr DIH索引效率对比分析

摘要：测试软件环境： 1、16G windows7 x64 32core cpu 。 2、jdk 1.7 tomcat 6.x solr 4.8数据库软件环境： 1、16G windows7 x64 32core cpu 。 2、Oracle 11g一、Solr默认索引工具DIH。... 阅读全文

posted @ 2015-04-29 11:38 李克华阅读(5642) 评论(0) 推荐(0) 编辑

Lucene TF-IDF 相关性算分公式(转)

摘要：Lucene在进行关键词查询的时候，默认用TF-IDF算法来计算关键词和文档的相关性，用这个数据排序TF:词频,IDF：逆向文档频率，TF-IDF是一种统计方法，或者被称为向量空间模型,名字听起来很复杂，但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多，越相关整个文档集合中包含某... 阅读全文

posted @ 2015-04-08 17:41 李克华阅读(2661) 评论(0) 推荐(0) 编辑

关于Lucene 3.0升级到Lucene 4.x 备忘

摘要：最近，需要对项目进行lucene版本升级。而原来项目时基于lucene 3.0的，很古老的一个版本的了。在老版本中中，我们主要用了几个lucene的东西： 1、查询lucene多目录索引。 2、构建RAMDirectory，把索引放到内存中，以提高检索效率。 3、构建Lucene自定义分词... 阅读全文

posted @ 2015-04-02 17:44 李克华阅读(3588) 评论(2) 推荐(0) 编辑

Lucene 4.x Spellcheck使用说明

摘要：Spellcheck是Lucene新版本的功能，在介绍spellcheck之前，我们需要弄清楚Spellcheck支持几种数据源。Spellcheck构造函数需要传入Dictionary接口： package org.apache.lucene.search.spell;/* * Licens... 阅读全文

posted @ 2015-04-02 16:57 李克华阅读(1598) 评论(0) 推荐(0) 编辑

公告

昵称：李克华
园龄： 15年
粉丝： 417
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

李克华

云计算高级群: 292870151 195907286 交流：Hadoop、NoSQL、分布式、lucene、solr、nutch

04 2015 档案

公告

搜索

我的标签

随笔档案

阅读排行榜

推荐排行榜

最新评论