2017年11月22日

摘要: SSL按照统计学习理论的角度包括直推(Transductive)SSL和归纳(Inductive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳SSL处理整个样本空间中所有给定和未知的样例,同 阅读全文
posted @ 2017-11-22 17:14 WegZumHimmel 阅读(2023) 评论(0) 推荐(0) 编辑
摘要: 在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequential decision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习(Imit 阅读全文
posted @ 2017-11-22 17:04 WegZumHimmel 阅读(256) 评论(0) 推荐(0) 编辑
摘要: SGD SGD指stochastic gradient descent,即随机梯度下降。是梯度下降的batch版本。 对于训练数据集,我们首先将其分成n个batch,每个batch包含m个样本。我们每次更新都利用一个batch的数据,而非整个训练集。即: xt+1=xt+Δxt Δxt=−ηgt 其 阅读全文
posted @ 2017-11-22 14:08 WegZumHimmel 阅读(164) 评论(0) 推荐(0) 编辑

2017年11月1日

摘要: 转自:http://blog.csdn.net/u012162613/article/details/44261657 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training da 阅读全文
posted @ 2017-11-01 17:00 WegZumHimmel 阅读(468) 评论(0) 推荐(0) 编辑

2017年10月30日

摘要: require('nn') local function createQNetwork() local mlp = nn.Sequential() mlp:add(nn.Reshape(10)) mlp:add(nn.Linear(10, 32)) mlp:add(nn.Sigmoid()) mlp:add(nn.Linear(32, 1)) r... 阅读全文
posted @ 2017-10-30 11:46 WegZumHimmel 阅读(148) 评论(0) 推荐(0) 编辑

2017年10月10日

摘要: dict 遍历方式 阅读全文
posted @ 2017-10-10 16:07 WegZumHimmel 阅读(91) 评论(0) 推荐(0) 编辑

2017年9月27日

摘要: 动态规划是将问题转化为子集问题,缩小问题的规模,也就是说先从最小的子集开始计算,由小的状态得出更大集合的状态.而在本题中,如何将问题分割成子状态呢?将一个字符串切割成两部分,如果右边是回文子串,那么需要的切点就为:左边的子串切点+1,如果右边非回文,则需要的切点就为:左边子串切点+1+右边子串长度- 阅读全文
posted @ 2017-09-27 19:50 WegZumHimmel 阅读(79) 评论(0) 推荐(0) 编辑

2017年9月18日

摘要: 极小化极大算法 维基百科,自由的百科全书 Minimax算法又名极小化极大算法,是一种找出失败的最大可能性中的最小值的算法。 概述 Minimax算法常用于棋类等由两方较量的游戏和程序。该算法是一个零总和算法,即一方要在可选的选项中选择将其优势最大化的选择,另一方则选择令对手优势最小化的方法。而开始 阅读全文
posted @ 2017-09-18 15:15 WegZumHimmel 阅读(737) 评论(0) 推荐(0) 编辑
摘要: 转载于http://blog.sina.com.cn/s/blog_4d4a0a8b01007n2d.html 转载于http://blog.sina.com.cn/s/blog_4d4a0a8b01007n2d.html 该策略说起来很简单,简单到有些不可思议:第一步合作,此后每一步都重复对方上一 阅读全文
posted @ 2017-09-18 11:16 WegZumHimmel 阅读(1748) 评论(0) 推荐(0) 编辑

2017年8月31日

摘要: 1. view()含义:重新排列矩阵(行优先)格式:b = a:view(m,n)其中a的大小为m*n特殊格式:1、b = a:view(-1,k)表示将a重新排列成m*n/k行k列的矩阵2、b = a:view(k,-1)表示将a重新排列成k行m*n/k列的矩阵 2. 暂停1s再继续运行程序 os 阅读全文
posted @ 2017-08-31 14:08 WegZumHimmel 阅读(155) 评论(0) 推荐(0) 编辑

导航