2018年2月8日

【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking

摘要: 7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量; 对于这类query,用户不仅要相关的还需要最新的信息; 方法:recency-demoted relevance 1) 对每篇doc,按照它的freshness程度进行分 阅读全文

posted @ 2018-02-08 10:20 tanfy 阅读(328) 评论(0) 推荐(0) 编辑

2018年1月31日

【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting

摘要: 5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get better results and, more importantly, to help solve t 阅读全文

posted @ 2018-01-31 16:43 tanfy 阅读(344) 评论(0) 推荐(0) 编辑

2018年1月29日

【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking

摘要: 3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面; 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient boosting trees(GBDT) with logistic loss,该方法可以用来减少 阅读全文

posted @ 2018-01-29 10:06 tanfy 阅读(413) 评论(0) 推荐(0) 编辑

2018年1月18日

【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background

摘要: ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting; 此文内容基于拥有百亿url索引的yahoo搜素引擎; Keywords: learning to rank; quer 阅读全文

posted @ 2018-01-18 17:31 tanfy 阅读(912) 评论(0) 推荐(0) 编辑

2016年8月26日

Xapian实战(四):搜索

摘要: 参考资料: 学习Xapian(1)-基础的建索引和搜索 1. Xapian中用于搜索的类 Enquire - 提供了检索的接口;(Enquire API) QueryParser(QueryParser API) - 解析待查找的字符串,返回Query(Query API); MSet - 用于搜索 阅读全文

posted @ 2016-08-26 16:57 tanfy 阅读(1131) 评论(0) 推荐(0) 编辑

2016年8月19日

企业内搜索引擎项目(四):搜索功能的实现

摘要: 1. 思路 在进行网页搜索的过程中,需要考虑索引更好的问题=》 单独使用另一条线程控制磁盘索引的更新,该线程同时更新server.conf配置文件,表明当前正在使用的是哪一个磁盘数据库; 网页搜索的时候根据server.conf中的index信息打开对应的数据库; 2. 实战 利用Xapian开源库 阅读全文

posted @ 2016-08-19 20:05 tanfy 阅读(455) 评论(0) 推荐(0) 编辑

Xapian实战(三):索引

摘要: 参考资料: Xapian:Document, Value和Term Xapian:Database Xapian机制简要介绍 1. Xapian中各类要点总结 @ Database Database API参考 WritableDatabase API参考 Xapian的Database是所有用于检 阅读全文

posted @ 2016-08-19 20:04 tanfy 阅读(820) 评论(0) 推荐(0) 编辑

企业内搜索引擎项目(三):搜索服务器框架的搭建

摘要: 1. 设计 Muduo网络库实战(二)中的"1. 方案的确定" 2. 实战 采用Muduo网络库进行服务器的搭建工作; 思路: 一旦客户端连接服务器成功,调用OnConnection()函数; 当客户端发送数据给服务器,调用OnMessage()函数,处理数据并利用线程池进行搜索返回结果; 其中服务 阅读全文

posted @ 2016-08-19 20:04 tanfy 阅读(775) 评论(0) 推荐(0) 编辑

企业内搜索引擎项目(二):索引的设计和创建

摘要: 1. 设计 @ 索引创建 采用【动态索引】的策略,可以实现实时搜索的功能; 动态索引的实现需要“倒排索引”,“临时索引”和“已删除文档列表”,其中“倒排索引”存储在磁盘文件中,“临时索引”存储在内存中; 思路: 当系统发现有新文档进入时,立即将其加入临时索引中;有文档被删除时,则将其加入删除文档队列 阅读全文

posted @ 2016-08-19 20:03 tanfy 阅读(403) 评论(0) 推荐(0) 编辑

Xapian实战(二):core concepts

摘要: 参考资料 core concepts 正文 1. 并发性 xapian不包含任何全局变量,所以多线程编程中,在没有共享资源的情况下可以安全使用xapian。在实际操作中,由于每个线程都可以创建自己的xapian.Database对象,所以这个限制条件完全没有问题。当然如果真的需要在多线程中使用同一个 阅读全文

posted @ 2016-08-19 20:03 tanfy 阅读(933) 评论(0) 推荐(0) 编辑

导航