2017年11月22日

摘要: NDCG(normalized discounted cumulative gain,归一化折损累计增益)是一种近年来逐渐被采用的指标,尤其是在基于机器学习的排序方法中。NDCG是针对连续值的指标,它基于前k个检索结果进行计算。设R(j,d)是评价人员给出的文档d对查询j的相关性得分(通常是一个概率 阅读全文
posted @ 2017-11-22 17:37 WegZumHimmel 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 1. Ranking as Sequential Decision Making Advantages: beyond independent relevance 2. RL: Learn to make good sequences of decisions 3. Alpha Go: Breadt 阅读全文
posted @ 2017-11-22 17:36 WegZumHimmel 阅读(121) 评论(0) 推荐(0) 编辑
摘要: SSL按照统计学习理论的角度包括直推(Transductive)SSL和归纳(Inductive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳SSL处理整个样本空间中所有给定和未知的样例,同 阅读全文
posted @ 2017-11-22 17:14 WegZumHimmel 阅读(2023) 评论(0) 推荐(0) 编辑
摘要: 在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequential decision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习(Imit 阅读全文
posted @ 2017-11-22 17:04 WegZumHimmel 阅读(256) 评论(0) 推荐(0) 编辑
摘要: SGD SGD指stochastic gradient descent,即随机梯度下降。是梯度下降的batch版本。 对于训练数据集,我们首先将其分成n个batch,每个batch包含m个样本。我们每次更新都利用一个batch的数据,而非整个训练集。即: xt+1=xt+Δxt Δxt=−ηgt 其 阅读全文
posted @ 2017-11-22 14:08 WegZumHimmel 阅读(164) 评论(0) 推荐(0) 编辑

导航