2017 年 11月 22 日随笔档案 - WegZumHimmel

NDCG(用于IR)

摘要： NDCG（normalized discounted cumulative gain，归一化折损累计增益）是一种近年来逐渐被采用的指标，尤其是在基于机器学习的排序方法中。NDCG是针对连续值的指标，它基于前k个检索结果进行计算。设R(j,d)是评价人员给出的文档d对查询j的相关性得分（通常是一个概率阅读全文

posted @ 2017-11-22 17:37 WegZumHimmel 阅读(302) 评论(0) 推荐(0) 编辑

Information retrieval + RL

摘要： 1. Ranking as Sequential Decision Making Advantages: beyond independent relevance 2. RL: Learn to make good sequences of decisions 3. Alpha Go: Breadt 阅读全文

posted @ 2017-11-22 17:36 WegZumHimmel 阅读(121) 评论(0) 推荐(0) 编辑

半监督学习 Semi-Supervised-Learning

摘要： SSL按照统计学习理论的角度包括直推(Transductive)SSL和归纳(Inductive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据，利用训练数据中有类标签的样本和无类标签的样例进行训练，预测训练数据中无类标签的样例的类标签；归纳SSL处理整个样本空间中所有给定和未知的样例，同阅读全文

posted @ 2017-11-22 17:14 WegZumHimmel 阅读(2046) 评论(0) 推荐(0) 编辑

模仿学习 Imitation Learning

摘要：在传统的强化学习任务中，通常通过计算累积奖赏来学习最优策略(policy)，这种方式简单直接，而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequential decision)中，学习器不能频繁地得到奖励，且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习(Imit 阅读全文

posted @ 2017-11-22 17:04 WegZumHimmel 阅读(258) 评论(0) 推荐(0) 编辑

梯度下降

摘要： SGD SGD指stochastic gradient descent，即随机梯度下降。是梯度下降的batch版本。对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次更新都利用一个batch的数据，而非整个训练集。即： xt+1=xt+Δxt Δxt=−ηgt 其阅读全文

posted @ 2017-11-22 14:08 WegZumHimmel 阅读(166) 评论(0) 推荐(0) 编辑

WegZumHimmel

导航

公告