lvyafei

2015年5月29日

摘要：刚接触Lucene2.x和Solr2.x的时候，谈到中文分词，会让我立即想到用庖丁中文分词，庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库，而且是纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本而出名。几年过去了，Lucene和Solr... 阅读全文

posted @ 2015-05-29 10:57 lvyafei 阅读(345) 评论(0) 推荐(0) 编辑

solr介绍一:Analyzer（分析器）、Tokenizer（分词器）

摘要：首先，不知道大家在前面的例子中没有试着搜索文本串，就是在第二节，我们添加了很多文档。如果字段值是一个文本。你如果只搜索这个字段的某个单词，是不是发现搜不到？这就是因为我们没有配置Analyzer，因此在搜索的时候会“全匹配”。可以从直观感觉上理解为SQL的 like和= 的区别。通过前面这段引文，我... 阅读全文

posted @ 2015-05-29 09:08 lvyafei 阅读(657) 评论(0) 推荐(0) 编辑

2015年5月28日

solr-4.10.2版本使用tomcat7部署

摘要：当前版本仅限于solr-4.10.2版本。默认环境使用的是jdk1.7，tomcat7.环境自己配置。网上一堆堆的。1、下载相应的文件（solr-4.10.2.zip）。官网地址：http://lucene.apache.org/solr/2、将solr-4.10.2.zip文件解压.例：F:\so... 阅读全文

posted @ 2015-05-28 17:15 lvyafei 阅读(267) 评论(0) 推荐(0) 编辑

solr特点九:word(分词)

摘要：在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml（位置{SOLR_HOME}/config/下），配置信息如下： 2、在IKAnalyzer相关的jar包（IKAnalyzer2012_u6.jar 本博客不提供下载）放在{SOLR_HOME}... 阅读全文

posted @ 2015-05-28 15:00 lvyafei 阅读(231) 评论(0) 推荐(0) 编辑

推荐算法实践-美团网

摘要：前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。随着互联网的深入发展，越来越多的信息在互联网上传播，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载... 阅读全文

posted @ 2015-05-28 14:44 lvyafei 阅读(264) 评论(0) 推荐(0) 编辑

solr特点八:Spatial(空间搜索)

摘要：前言在美团CRM系统中，搜索商家的效率与公司的销售额息息相关，为了让BD们更便捷又直观地去搜索商家，美团CRM技术团队基于Solr提供了空间搜索功能，其中移动端周边商家搜索和PC端的地图模式搜索功能为BD们的日常工作带来了很大的便利，大大提升了BD们的工作效率。在本文中，首先对空间搜索的原理进行简单... 阅读全文

posted @ 2015-05-28 14:30 lvyafei 阅读(883) 评论(0) 推荐(0) 编辑

solr特点七:Plugins(扩展点)

摘要： http://wiki.apache.org/solr/SolrPlugins在 Solr 1.3 中，扩展 Solr 以及配置和重新整理扩展变得十分简单。以前，您需要编写一个SolrRequestHandler来实现新功能。这个方法的问题是其他SolrRequestHandler很难重用该功能。例... 阅读全文

posted @ 2015-05-28 14:06 lvyafei 阅读(285) 评论(0) 推荐(0) 编辑

solr特点六: DIH (从数据源导入数据)

摘要：在这个结构化数据和非结构化数据的数量都很庞大的年代，经常需要从数据库、XML/HTML 文件或其他数据源导入数据，并使数据可搜索。过去，要编写自定义代码才能创建到数据库、文件系统或 RSS 提要的自定义连接。但现在，Solr 的DataImportHandler（DIH）填补了这个空白，它使您能够从... 阅读全文

posted @ 2015-05-28 13:55 lvyafei 阅读(829) 评论(0) 推荐(0) 编辑

solr特点五: MoreLikeThis(查找相似页面)

摘要：在 Google 上尝试一个查询，您会注意到每一个结果都包含一个 “相似页面” 链接，单击该链接，就会发布另一个搜索请求，查找出与起初结果类似的文档。Solr 使用MoreLikeThisComponent（MLT）和MoreLikeThisHandler实现了一样的功能。如上所述，MLT 是与标准... 阅读全文

posted @ 2015-05-28 13:52 lvyafei 阅读(350) 评论(0) 推荐(0) 编辑

solr特点四: SpellCheck(拼写检查)

摘要：接下来，我将介绍如何向应用程序添加 “您是不是要找……”（拼写检查）。提供拼写建议Lucene 和 Solr 很久以前就开始提供拼写检查功能了，但直到添加了SearchComponent架构之后，这些功能才可以无缝使用。现在您可以输入一个查询，让它不仅返回查询结果，并且为查询词语提供拼写建议（如果存... 阅读全文

posted @ 2015-05-28 13:48 lvyafei 阅读(385) 评论(0) 推荐(0) 编辑

solr特点三: boost(改变默认打分排序)

摘要：有时候默认的字段打分不能满足我们的需要，如我们想把关键词出现在标题中的优先显示。测试于：Solr 4.5.1, Jdk 1.6.0_45, Tomcat 6.0.37 | CentOS 5.7实现方法有3个：在建索引的时候设置boost，这个值会写入文件，建索引时有额外的性能开销；在查询的时候指定b... 阅读全文

posted @ 2015-05-28 13:46 lvyafei 阅读(617) 评论(0) 推荐(0) 编辑

solr特点三: QueryElevation(编辑结果排序)

摘要：在理想的情况下，搜索引擎只返回与用户查询相关的文档。而在现实的查询中，编辑（没发现更合适的表达）通常需要指定特定文档在搜索结果中的特定位置。这样做有很多原因。或许 “置顶” 的文档就是最好的查询结果。也可能是公司想让客户从相似的选择中找到利润率较高的产品。还可能是由第三方付费，提高某些查询词语的排名... 阅读全文

posted @ 2015-05-28 13:44 lvyafei 阅读(1268) 评论(0) 推荐(0) 编辑

solr特点三: defType(查询权重排序)

摘要： Solr的defType有dismax/edismax两种，这两种的区别，可参见：http://blog.csdn.net/duck_genuine/article/details/8060026edismax支持boost函数与score相乘作为，而dismax只能使用bf作用效果是相加，所以在处... 阅读全文

posted @ 2015-05-28 13:42 lvyafei 阅读(1454) 评论(0) 推荐(0) 编辑

solr特点二:Facet(1)

摘要：一.Facet简介Facet是solr的高级搜索功能之一,可以给用户提供更友好的搜索体验.在搜索关键字的同时,能够按照Facet的字段进行分组并统计.二.Facet字段适宜被Facet的字段一般代表了实体的某种公共属性,如商品的分类,商品的制造厂家,书籍的出版商等等.Facet字段的要求Facet的... 阅读全文

posted @ 2015-05-28 11:00 lvyafei 阅读(311) 评论(0) 推荐(0) 编辑

索引介绍一:倒排索引

摘要：倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式：一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文... 阅读全文

posted @ 2015-05-28 10:52 lvyafei 阅读(290) 评论(0) 推荐(0) 编辑

公告