数学基础02-矩阵论
摘要:这个Topic有点儿难,不知道什么时候可以写完 协方差和协方差矩阵 协方差矩阵和PCA PCA和SVD
阅读全文
强化学习(David Silver)6:值函数近似
摘要:1、简介 1.1、为什么有值函数近似 状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1.2、值函数近似有两种方法 一个是状态值函数方法;一个是状态动作值方法 1.3、值函数近似的三种类型 类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a,
阅读全文
强化学习(David Silver)5: 免模型控制
摘要:1、简介 为什么需要免模型控制 1) 有的MDP未知,但是可以采样 2) 有的MDP已知,但是空间太大,需要采样 同策略学习 从经历的同策略样本中学习 异策略学习 从类似的策略空间中采样 2、同策略MC 2.1、一般的GPI(一般策略迭代) 策略评估+策略改善 2.2、同策略MC 用MC做策略评估(
阅读全文
强化学习(David Silver)4:免模型学习
摘要:0、为什么免模型学习? 0、为什么免模型学习? 在已知的MDP中,可以使用DP来计算求解RL 但是在未知MDP中,没有转移函数,不能直接求解,此时MDP未知,需要使用采样方法,也就是本课中的Model-Free方法 PS:课程中迭代的值是值函数;周志华老师的西瓜书中迭代的是状态值函数;课程中迭代的是
阅读全文
强化学习(David Silver)3:动态规划
摘要:1、简介 1.1、动态规划 动态规划的性质:最优子结构;无后向性 动态规划假定MDP所有信息已知,解决的是planning问题,不是RL问题 1.2、两类问题 预测问题:给定策略,给出MDP/MRP和策略,计算策略值函数 控制问题:不给策略,给出MDP/MRP,得出最优策略值函数 2、策略评估 通过
阅读全文
【论文阅读-DL】《One Model To Learn Them All》阅读
摘要:概念:One/Zero-shot learning 训练集中没有样本的学习;和transfer learning/domain adoption有关 NN很成功,但是每个领域都有自己的model;本文尝试搞一个统一的模型 之前也有人尝试过NLP/语音识别/人脸检测的多任务学习,但是不是跨域地 目前的
阅读全文
强化学习(David Silver)2:MDP
摘要:1、MP(马尔科夫过程) 1.1、MDP介绍 1)MDP形式化地表达强化学习的过程(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP 1.2、MDP定义 MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率 2、MRP(马尔科夫奖励过程) 在MP中加入了Rewa
阅读全文
【论文阅读-DL】《Understanding Black-box Predictions via Influence Functions》阅读
摘要:从模型角度出发解释模型: 1、在测试点周围拟合一个简单模型 2、扰动测试集,看预估值如何变化 如何解释模型如何产生呢? 使用影响函数来解释 使用困难在于: 1、影响函数需要求二阶导; 2、需要模型凸且可微分; 解决方案:二阶优化技术 Question:这篇文章里面的training point是指什
阅读全文
强化学习(David Silver)1:简介
摘要:1、书 《An introduction to Reforcement Learning》Sutton and Barto, 1998,400页 《Algorithms for Reforcement Learning》Szepesvari,2010,偏数学,不到100页 2、强化学习的特点 不存在
阅读全文
【论文阅读-DL】《Understanding Black-box Predictions via Influence Functions》阅读
摘要:摘要: 基于robust statistics中的影响函数的学习,提出一套方案: 1)只需要梯度和二阶导; 2)非凸不可微问题也有一定意义; 3)对于香型模型和CNN:理解模型行为;debug模型;检测数据错误; 如果发现文中有问题,敬请联系作者批评指正,真诚欢迎您的指教,谢谢! 微信: legel
阅读全文
生成模型和判别模型
摘要:1、定义: 生成模型(或称产生式模型)和判别模型(或称判别式模型)的本质区别在于模型中观测序列x和状态序列y的决定关系。前者假设y决定x,后者假设x决定y。 2、生成模型特点 2.1、生成模型以“状态序列y按照一定的规律生成观察输入序列x”为假设,针对联合分布p(x,y)建模,通过估计生成概率最大的
阅读全文
第6章:概率图模型
摘要:非常重要: 逻辑归回模型与最大熵模型的等价性:逻辑回归模型,本质上就是一个最大熵模型 最大熵模型,是基于最大熵原理的判别模型 最大熵原理,在满足约束条件的情况下,选择熵最大的模型 1概率图模型分类 1.1有向图模型 1.1.1静态贝叶斯网络 1.1.2动态贝叶斯网络 1.1.2.1隐马尔科夫模型:用
阅读全文
基础算法问题
摘要:找出字符串的最长不重复子串,输出长度 公共祖先节点:http://blog.csdn.net/yangrujing/article/details/51985860 即在父串中寻找子串首次出现的位置 求两个串中的第一个最长子串 求子数组的最大和 在二元树中找出和为某一值的所有路径 在二元树中找出和为
阅读全文