摘要:
SSL按照统计学习理论的角度包括直推(Transductive)SSL和归纳(Inductive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳SSL处理整个样本空间中所有给定和未知的样例,同 阅读全文
摘要:
在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequential decision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习(Imit 阅读全文
摘要:
SGD SGD指stochastic gradient descent,即随机梯度下降。是梯度下降的batch版本。 对于训练数据集,我们首先将其分成n个batch,每个batch包含m个样本。我们每次更新都利用一个batch的数据,而非整个训练集。即: xt+1=xt+Δxt Δxt=−ηgt 其 阅读全文
摘要:
转自:http://blog.csdn.net/u012162613/article/details/44261657 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training da 阅读全文
摘要:
require('nn') local function createQNetwork() local mlp = nn.Sequential() mlp:add(nn.Reshape(10)) mlp:add(nn.Linear(10, 32)) mlp:add(nn.Sigmoid()) mlp:add(nn.Linear(32, 1)) r... 阅读全文
摘要:
动态规划是将问题转化为子集问题,缩小问题的规模,也就是说先从最小的子集开始计算,由小的状态得出更大集合的状态.而在本题中,如何将问题分割成子状态呢?将一个字符串切割成两部分,如果右边是回文子串,那么需要的切点就为:左边的子串切点+1,如果右边非回文,则需要的切点就为:左边子串切点+1+右边子串长度- 阅读全文
摘要:
极小化极大算法 维基百科,自由的百科全书 Minimax算法又名极小化极大算法,是一种找出失败的最大可能性中的最小值的算法。 概述 Minimax算法常用于棋类等由两方较量的游戏和程序。该算法是一个零总和算法,即一方要在可选的选项中选择将其优势最大化的选择,另一方则选择令对手优势最小化的方法。而开始 阅读全文
摘要:
转载于http://blog.sina.com.cn/s/blog_4d4a0a8b01007n2d.html 转载于http://blog.sina.com.cn/s/blog_4d4a0a8b01007n2d.html 该策略说起来很简单,简单到有些不可思议:第一步合作,此后每一步都重复对方上一 阅读全文