随笔分类 - 信息检索算法/实践
lucene、solr
摘要:为什么客服需要调度?阿里集团客户体验事业群(CCO)目前承接了阿里集团以及生态体的客户服务业务,我们的客户通过各个渠道来寻求解决各类问题,每天的进线量巨大,而且经常伴随着突发性进线,比如天猫代金券出了问题,在几分钟内就会造成几千通热线或在线咨询。面对种类繁多、海量、突发的客户问题,我们的服务能力往往难以满足,常常造成用户排队,甚至放弃,自然我们产生了对调度的需求......
阅读全文
摘要:为什么一些机器学习模型需要对数据进行归一化?http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征...
阅读全文
摘要:排序学习实践---ranknet方法http://www.cnblogs.com/LBSer/p/4439542.html1 背景 随着移动互联网的崛起,越来越多的用户开始习惯于从手机完成吃、喝、玩、乐、衣、食、住、行等各个方面的需求。打开手机,点开手淘、美团等APP,商品玲玲满目,而让用户将所有...
阅读全文
摘要:http://www.cnblogs.com/LBSer/p/4419052.html1 问题描述 我们的检索排序服务往往需要结合个性化算法来进行重排序,一般来说分两步:1)进行粗排序,这一过程由检索引擎快速完成;2)重排序,粗排序后将排名靠前的结果发送给个性化服务引擎,由个性化服务引擎进行深度...
阅读全文
摘要:http://www.cnblogs.com/LBSer/p/4417074.html1 背景 以商家(Poi)维度来展示各种服务(比如团购(deal)、直连)正变得越来越流行(图1a), 比如目前美食、酒店等品类在移动端将团购信息列表改为POI列表页展示。 图1 a:商家维度展...
阅读全文
摘要:http://www.cnblogs.com/LBSer/p/4119841.html1 lucene字典 使用lucene进行查询不可避免都会使用到其提供的字典功能,即根据给定的term找到该term所对应的倒排文档id列表等信息。实际上lucene索引文件后缀名为tim和tip的文件实现的就...
阅读全文
摘要:http://www.cnblogs.com/LBSer/p/4068864.html 随着业务快速发展,基于lucene的索引文件zip压缩后也接近了GB量级,而保持索引文件大小为一个可以接受的范围非常有必要,不仅可以提高索引传输、读取速度,还能提高索引cache效率(lucene打开索引文件...
阅读全文