会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
haolujun
大智大愚
博客园
订阅
管理
2018年2月9日
我是如何用单机实现亿级规模题库去重的?
摘要: 背景 最近工作中遇到了一个问题:如何对大规模题库去重?公司经过多年的积累,有着近亿道题目的题库,但是由于题目来源不一导致题库中有很多重复的题目,这些重复的题目在检索时,除了增加搜索引擎的计算量外,并不会提高准确率。此外由于题目过多,搜索引擎往往采取了截断策略,只对一部分题目进行计算,这导致了某些正确
阅读全文
posted @ 2018-02-09 18:10 haolujun
阅读(7803)
评论(19)
推荐(40)
编辑
公告