随笔分类 -  信息搜索

摘要:本文先介绍下mmseg的概念和算法,再说下mmseg4j-solor的3个分词器用法 1.mmseg概念 mmseg是用于中文切词的算法,即Maximum Matching Segment,最大匹配分词。根据在词典(语料库)中的匹配情况把原文切分成一个个词语 2.两种方法 为了便于后续介绍,假设要切 阅读全文
posted @ 2016-04-19 14:56 春文秋武 阅读(1253) 评论(0) 推荐(0) 编辑
摘要:1.何为相关query 我通常也把相关query称为相似query,搜索日志中一个用户在短时间内的一系列搜索词被称为相关query。相关就是两个query间有一定的关系,反映了用户在当时的需求。本文就以应用搜索为背景来介绍相关query。 2.有什么作用 相关query的作用就很多了: 错词纠正:输 阅读全文
posted @ 2016-03-29 11:30 春文秋武 阅读(1112) 评论(0) 推荐(0) 编辑
摘要:年前总结了游戏搜索做的事情,现在把slide放出来当做这个月的作业。 1.总纲 2.架构 架构是骨骼,算法策略是灵魂,所以同等重要。一个正常的系统都可以分为三部分:线上系统接收用户请求,监控系统实时发现异常和报警,离线系统分析挖掘数据进而反馈给线上。 2.1监控和报表 监控常见的是QPS和服务延迟, 阅读全文
posted @ 2016-02-29 11:06 春文秋武 阅读(585) 评论(0) 推荐(1) 编辑
摘要:很多网站或应用会提供各样的排行榜,如热门查询、热门应用、最佳文章、论坛评论/文章列表展示等。前段时间做游戏的搜索热词就看了几篇文章,总结记录下。先介绍下流传比较广的算法,再说下我的算法。格式全乱了,还是引用老文章吧。 阅读全文
posted @ 2015-11-06 11:42 春文秋武 阅读(210) 评论(0) 推荐(0) 编辑
摘要:域缓存,加载所有文档中某个特定域的值到内存,便于随机存取该域值。用途及使用场景当用户需要访问各文档中某个域的值时,IndexSearcher.doc(docId)获得Document的所有域值,但访问速度比较慢,而且只能获得Stored域的值。 FieldCache能获得域值数组,根据docId r... 阅读全文
posted @ 2015-10-09 17:46 春文秋武 阅读(609) 评论(2) 推荐(0) 编辑
摘要:1.搜索业务主搜索:商品搜索、商家搜索、采购搜索、app搜索行业搜索:淘货源、淘工厂、聚好货、主题市场、品牌馆等2.优势由于用户多,需求强烈,收益大,所以功能、场景、架构做到极致高效。代码复用性强:基础通用功能进行组件抽象化组件通用性好:一些组件或者组件进行组合的服务,适用更多场景,支持更多功能转化... 阅读全文
posted @ 2015-07-31 14:26 春文秋武 阅读(466) 评论(0) 推荐(0) 编辑
摘要:后续完善。背景假设有1亿用户(108),每个用户有1万张相片(104)。从数据量和数据大小两个方面认识下。数据量:共有1012条数据,100台机子存储,每台机子1010条数据(100亿)。数据大小:每个用户的数据占2MB,共2*108MB = 200TB,200台机子存储,每台机子存储1TB。初步印... 阅读全文
posted @ 2015-06-24 16:37 春文秋武 阅读(224) 评论(0) 推荐(0) 编辑
摘要:本文介绍下lucene生成的索引有哪些文件组成,每个文件包含了什么信息。基于Lucene 4.10.0。数据结构索引(index)包含了存储的文档(document)正排、倒排信息,用于文本搜索。索引又分为多个段(segments),每个新添加的doc都会存到一个新segment中,不同的segme... 阅读全文
posted @ 2015-04-24 19:08 春文秋武 阅读(254) 评论(0) 推荐(0) 编辑
摘要:近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大、更新较频繁的情况下使用。本文主要来介绍下如何使用,其原理还没弄透,改天再续。本文代码基于lucene 4.10IndexReader的重建想要看... 阅读全文
posted @ 2015-01-20 20:01 春文秋武 阅读(2093) 评论(0) 推荐(0) 编辑
摘要:1.facet的直观认识facet:面、切面、方面。个人理解就是维度,在满足query的前提下,观察结果在各维度上的分布(一个维度下各子类的数目)。如jd上搜“手机”,得到4009个商品。其中品牌、网络、价格就是商品的维度(facet),点击某个品牌或者网络,获取更细分的结果。点击品牌小米,获得小米... 阅读全文
posted @ 2015-01-09 15:42 春文秋武 阅读(599) 评论(0) 推荐(0) 编辑
摘要:Lucene搜索的时候就要构造查询语句,本篇就介绍下各种Query。IndexSearcher是搜索主类,提供的常用查询接口有: Query quey在org.apache.lucene.search上,代表最终的查询语法树,传入IndexSearcher进行查找。 TermQuery:在某个Fie 阅读全文
posted @ 2014-10-24 19:59 春文秋武 阅读(501) 评论(0) 推荐(0) 编辑
摘要:分析器介绍 搜索的基础是对文本信息进行分析,Lucene的分析工具在org.apache.lucene.analysis包中。分析器负责对文本进行分词、语言处理得到词条,建索引和搜索的时候都需要用到分析器,两者应当是同一个,否则没法很好的匹配。 Lucene的分析器往往包括一个分词器(Tokeniz 阅读全文
posted @ 2014-10-23 16:48 春文秋武 阅读(765) 评论(0) 推荐(0) 编辑
摘要:为了生存,就得干一行爱一行。那就学习下lucene吧。全文检索介绍流程:建索引准备待搜索文档文档分词:将文档分成一个个单独的单词,去除标点符号、停词(无意义的冠词介词等),得到token语言处理:统一小写,单词缩减或转变为词根形式,得到term索引:用term创建字典,term->doc,对字典按字... 阅读全文
posted @ 2014-10-11 14:55 春文秋武 阅读(281) 评论(0) 推荐(0) 编辑
摘要:推荐系统在互联网中有很多应用场景,如广告、电子商务、社区论坛等。咱也不是搞算法的,但了解下也是很好的,不至于被别人忽悠。转篇文章修改如下,原文见常用推荐算法。推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关... 阅读全文
posted @ 2014-07-10 15:22 春文秋武 阅读(405) 评论(0) 推荐(0) 编辑
摘要:上篇文章介绍了搜索引擎的基本概念,有了大致的认识,本文说下搜索引擎实现上的一些问题。搜索引擎组成抓取系统:负责对互联网信息的搜集,将网页保存到本地,供下游分析、挖掘、建索引使用分析系统:分析query,查询排序索引系统:整理资源,提取特征检索系统:用户query查找,结果展现离线计算和在线计算为了确... 阅读全文
posted @ 2014-04-04 15:29 春文秋武 阅读(339) 评论(0) 推荐(0) 编辑
摘要:定义从互联网上搜索,通过文本匹配,采取一些手段找到最好的信息。结果衡量相关性-结果与query的匹配,结果与用户需求的匹配权威性-结果被引用次数(超链),链接分析时效性-结果对用户是有用新鲜的多样性-根据用户行为返回丰富的结果(苹果?)个性化-地域、用户喜好反spam可以抽象为1个打分公式:scor... 阅读全文
posted @ 2014-03-21 16:08 春文秋武 阅读(331) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示