摘要:The delete-by-query plugin adds support for deleteing all of the documents which match the specified query. It is a replacement for the problematic de
阅读全文
随笔分类 - 3-搜索引擎
摘要:Kibi extends Kibana 4.6.4 with data intelligence features. The core feature of Kibi is the capability to join and filter data from multiple Elasticsea
阅读全文
摘要:转载: http://club.alibabatech.org/article_detail.htm?articleId=61 【导读】本文从商品类目预测的难点分析出发,衍生出一淘商品类目预测的架构以及实现,同时还对商品类目预测的进阶提出了畅想。适合想对商品类目预测有一些了解的同学阅读。 什么是一淘
阅读全文
摘要:电商搜索系统存在以下特点:数据量庞大。(上亿级别)高并发。(日均pv过亿、数十亿)一条商品数据由商品基本信息、价格、库存、促销、评价等组成,这些数据存储在各自业务系统当中。(多数据源导致构建索引比较麻烦)召回率要求高。(哪个商家发现搜不到自家的商品肯定要抓狂,哪怕有一个搜不到。)时效性要求高,价格变
阅读全文
摘要:package com.fox.facet;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import o...
阅读全文
摘要:先来一个标准分词(standard),配置如下:curl -XPUT localhost:9200/local -d '{ "settings" : { "analysis" : { "analyzer" : { "stem" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "stop", "p
阅读全文
摘要:This article is from an interview withZuhaib Siddique, a production engineer atHipChat, makers ofgroup chat and IM for teams.HipChat started in an unusual space, one you might not think would have much promise, enterprise group messaging, but as we are learning there is gold in them thereenterprise
阅读全文
摘要:前面我们感觉ES就想是一个nosql数据库,支持Free Schema。接触过Lucene、solr的同学这时可能会思考一个问题——怎么定义document中的field?store、index、analyzer等属性如何配置?这时可以了解下ES中的Mapping。[reference]http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping.html#mappingMapping is the process of defining how a document should be mapped
阅读全文
摘要:一)分词1)正向/逆向最大匹配算法典型:IKAnalyzer采用的是正向迭代最细粒度切分算法IKAnalyzer源码简单分析:http://www.cnblogs.com/huangfox/p/3282003.html2)字典树(trieTree)trieTree实现http://www.cnblogs.com/huangfox/archive/2012/04/27/2474185.html中文分词遇到的问题:a)标准trieTree节点采用数组存储指针,如果是英文a-z用26长度的数组表示,但是中文不能用这种存储方式,节点数组长度等于中文字数。(内存撑不住!)b)如何节点内部查询?采用数组进
阅读全文
摘要:首先摘抄一段关于IK的特性介绍:采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用...
阅读全文
摘要:接触搜索引擎、lucene已经3年了,当时什么都不懂,幻想着可以为lucene做一套管理系统,适用于中低端垂直搜索,可以快速搭建检索服务,甚至认为可以做成一个产品。但是,有市场吗?用户群体是什么?接着认识了solr,发现和它的思想如出一辙。为了不忘却那段苦逼的岁月,于是......SWT已经淡忘了......实例管理,类似数据库的实例,每个实例可以包含多个索引(core)。每个实例可以动态配置。这里主要对字段进行配置,类似solr的schema.xml。包括字段名称、存储方式、分词方式、索引方式。这里相当于是一个查看配置的功能。支持数据的导入,当时只实现了sqlserver数据库的导入。确定好
阅读全文