ir常用评价指标
recall50
- openqa
\[recall50=\frac{在模型top50中能找到一个正确答案的query数量}{所有的query数量}
\]
- 宏平均:marco
\[recall50=\frac{1}{|qids|}\sum_{i=1}^{|qids|}(\frac{模型预测的top50中 q_i 的pos pid数量}{q_i 所有的pos pid数量})
\]
- 微平均
\[recall50=\frac{\sum_{i=1}^{|qids|}模型预测的top50中 q_i 的pos pid数量}{\sum_{i=1}^{|qids|}q_i的pos pid的数量}
\]
mrr
- mrr@10
\[mrr@10=\frac{1}{|qids|}\sum_{i=1, q_i的模型top10中含有pos}^{|qids|}(\frac{1}{q_i在模型top10中排名最靠前的pos pid的位置})
\]
map
- AP
\[AP=\frac{1}{N}\sum_{i=1}^Nprecison@i
=\frac{1}{N}\sum_{i=1}^N\frac{i}{position(i)}\\
\]
N表示对于这个query来说的相关文档数量,position(i)是第i个相关文档在检索结果列表中的位置。
- MAP:对测试集合所有query的AP取平均
\[MAP=\frac{1}{|Q|}AP
\]