随笔分类 - 信息搜索

详解mmseg

摘要：本文先介绍下mmseg的概念和算法，再说下mmseg4j-solor的3个分词器用法 1.mmseg概念 mmseg是用于中文切词的算法，即Maximum Matching Segment，最大匹配分词。根据在词典（语料库）中的匹配情况把原文切分成一个个词语 2.两种方法为了便于后续介绍，假设要切阅读全文

posted @ 2016-04-19 14:56 春文秋武阅读(1253) 评论(0) 推荐(0) 编辑

相关query挖掘

摘要：1.何为相关query 我通常也把相关query称为相似query，搜索日志中一个用户在短时间内的一系列搜索词被称为相关query。相关就是两个query间有一定的关系，反映了用户在当时的需求。本文就以应用搜索为背景来介绍相关query。 2.有什么作用相关query的作用就很多了：错词纠正：输阅读全文

posted @ 2016-03-29 11:30 春文秋武阅读(1112) 评论(0) 推荐(0) 编辑

玩转游戏搜索

摘要：年前总结了游戏搜索做的事情，现在把slide放出来当做这个月的作业。 1.总纲 2.架构架构是骨骼，算法策略是灵魂，所以同等重要。一个正常的系统都可以分为三部分：线上系统接收用户请求，监控系统实时发现异常和报警，离线系统分析挖掘数据进而反馈给线上。 2.1监控和报表监控常见的是QPS和服务延迟，阅读全文

posted @ 2016-02-29 11:06 春文秋武阅读(585) 评论(0) 推荐(1) 编辑

聊聊排名算法

摘要：很多网站或应用会提供各样的排行榜，如热门查询、热门应用、最佳文章、论坛评论/文章列表展示等。前段时间做游戏的搜索热词就看了几篇文章，总结记录下。先介绍下流传比较广的算法，再说下我的算法。格式全乱了，还是引用老文章吧。阅读全文

posted @ 2015-11-06 11:42 春文秋武阅读(210) 评论(0) 推荐(0) 编辑

Lucene系列-FieldCache

摘要：域缓存，加载所有文档中某个特定域的值到内存，便于随机存取该域值。用途及使用场景当用户需要访问各文档中某个域的值时，IndexSearcher.doc(docId)获得Document的所有域值，但访问速度比较慢，而且只能获得Stored域的值。 FieldCache能获得域值数组，根据docId r... 阅读全文

posted @ 2015-10-09 17:46 春文秋武阅读(609) 评论(2) 推荐(0) 编辑

阿里巴巴B2B搜索学习

摘要：1.搜索业务主搜索：商品搜索、商家搜索、采购搜索、app搜索行业搜索：淘货源、淘工厂、聚好货、主题市场、品牌馆等2.优势由于用户多，需求强烈，收益大，所以功能、场景、架构做到极致高效。代码复用性强：基础通用功能进行组件抽象化组件通用性好：一些组件或者组件进行组合的服务，适用更多场景，支持更多功能转化... 阅读全文

posted @ 2015-07-31 14:26 春文秋武阅读(466) 评论(0) 推荐(0) 编辑

海量数据搜索的思考

摘要：后续完善。背景假设有1亿用户（108），每个用户有1万张相片(104)。从数据量和数据大小两个方面认识下。数据量：共有1012条数据，100台机子存储，每台机子1010条数据（100亿）。数据大小：每个用户的数据占2MB，共2*108MB = 200TB，200台机子存储，每台机子存储1TB。初步印... 阅读全文

posted @ 2015-06-24 16:37 春文秋武阅读(224) 评论(0) 推荐(0) 编辑

Lucene系列-索引文件

摘要：本文介绍下lucene生成的索引有哪些文件组成，每个文件包含了什么信息。基于Lucene 4.10.0。数据结构索引(index)包含了存储的文档(document)正排、倒排信息，用于文本搜索。索引又分为多个段(segments)，每个新添加的doc都会存到一个新segment中，不同的segme... 阅读全文

posted @ 2015-04-24 19:08 春文秋武阅读(254) 评论(0) 推荐(0) 编辑

Lucene系列-近实时搜索(1)

摘要：近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容，介于immediate和eventual之间，在数据比较大、更新较频繁的情况下使用。本文主要来介绍下如何使用，其原理还没弄透，改天再续。本文代码基于lucene 4.10IndexReader的重建想要看... 阅读全文

posted @ 2015-01-20 20:01 春文秋武阅读(2093) 评论(0) 推荐(0) 编辑

Lucene系列-facet

摘要：1.facet的直观认识facet：面、切面、方面。个人理解就是维度，在满足query的前提下，观察结果在各维度上的分布（一个维度下各子类的数目）。如jd上搜“手机”，得到4009个商品。其中品牌、网络、价格就是商品的维度(facet)，点击某个品牌或者网络，获取更细分的结果。点击品牌小米，获得小米... 阅读全文

posted @ 2015-01-09 15:42 春文秋武阅读(599) 评论(0) 推荐(0) 编辑

Lucene系列-搜索

摘要：Lucene搜索的时候就要构造查询语句，本篇就介绍下各种Query。IndexSearcher是搜索主类，提供的常用查询接口有： Query quey在org.apache.lucene.search上，代表最终的查询语法树，传入IndexSearcher进行查找。 TermQuery：在某个Fie 阅读全文

posted @ 2014-10-24 19:59 春文秋武阅读(501) 评论(0) 推荐(0) 编辑

Lucene系列-分析器

摘要：分析器介绍搜索的基础是对文本信息进行分析，Lucene的分析工具在org.apache.lucene.analysis包中。分析器负责对文本进行分词、语言处理得到词条，建索引和搜索的时候都需要用到分析器，两者应当是同一个，否则没法很好的匹配。 Lucene的分析器往往包括一个分词器(Tokeniz 阅读全文

posted @ 2014-10-23 16:48 春文秋武阅读(765) 评论(0) 推荐(0) 编辑

Lucene系列-概述

摘要：为了生存，就得干一行爱一行。那就学习下lucene吧。全文检索介绍流程：建索引准备待搜索文档文档分词：将文档分成一个个单独的单词，去除标点符号、停词(无意义的冠词介词等)，得到token语言处理：统一小写，单词缩减或转变为词根形式，得到term索引：用term创建字典，term->doc，对字典按字... 阅读全文

posted @ 2014-10-11 14:55 春文秋武阅读(281) 评论(0) 推荐(0) 编辑

常用推荐算法

摘要：推荐系统在互联网中有很多应用场景，如广告、电子商务、社区论坛等。咱也不是搞算法的，但了解下也是很好的，不至于被别人忽悠。转篇文章修改如下，原文见常用推荐算法。推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣。目前，主要的推荐方法包括：基于内容推荐、协同过滤推荐、基于关... 阅读全文

posted @ 2014-07-10 15:22 春文秋武阅读(405) 评论(0) 推荐(0) 编辑

搜索引擎学习-实现

摘要：上篇文章介绍了搜索引擎的基本概念，有了大致的认识，本文说下搜索引擎实现上的一些问题。搜索引擎组成抓取系统：负责对互联网信息的搜集，将网页保存到本地，供下游分析、挖掘、建索引使用分析系统：分析query，查询排序索引系统：整理资源，提取特征检索系统：用户query查找，结果展现离线计算和在线计算为了确... 阅读全文

posted @ 2014-04-04 15:29 春文秋武阅读(339) 评论(0) 推荐(0) 编辑

搜索引擎学习-概述

摘要：定义从互联网上搜索，通过文本匹配，采取一些手段找到最好的信息。结果衡量相关性-结果与query的匹配，结果与用户需求的匹配权威性-结果被引用次数（超链），链接分析时效性-结果对用户是有用新鲜的多样性-根据用户行为返回丰富的结果（苹果？）个性化-地域、用户喜好反spam可以抽象为1个打分公式：scor... 阅读全文

posted @ 2014-03-21 16:08 春文秋武阅读(331) 评论(0) 推荐(0) 编辑

公告

WeiBo : whuqin
GitHub : whuqin
E-mail : whuqin@163.com
2015/11/13之前的博客来自旧博客

昵称：春文秋武
园龄： 9年2个月
粉丝： 11
关注： 0