随笔档案「2017年8月」 - _1024

摘要：这个Topic有点儿难，不知道什么时候可以写完协方差和协方差矩阵协方差矩阵和PCA PCA和SVD 阅读全文

posted @ 2017-08-27 17:35 _1024 阅读(250) 评论(0) 推荐(0)

摘要：1、简介 1.1、为什么有值函数近似状态空间太大，基于DP/MC/TD的方法的离散值太多，存储量太大，运行太慢 1.2、值函数近似有两种方法一个是状态值函数方法；一个是状态动作值方法 1.3、值函数近似的三种类型类型1：输入状态S，输出v 类型2：输入状态S，action a，输出Q(s,a, 阅读全文

posted @ 2017-08-18 01:12 _1024 阅读(1209) 评论(1) 推荐(0)

强化学习(David Silver)5: 免模型控制

摘要：1、简介为什么需要免模型控制 1) 有的MDP未知，但是可以采样 2) 有的MDP已知，但是空间太大，需要采样同策略学习从经历的同策略样本中学习异策略学习从类似的策略空间中采样 2、同策略MC 2.1、一般的GPI(一般策略迭代) 策略评估+策略改善 2.2、同策略MC 用MC做策略评估( 阅读全文

posted @ 2017-08-17 10:31 _1024 阅读(502) 评论(0) 推荐(0)

强化学习(David Silver)4：免模型学习

摘要：0、为什么免模型学习？ 0、为什么免模型学习？在已知的MDP中，可以使用DP来计算求解RL 但是在未知MDP中，没有转移函数，不能直接求解，此时MDP未知，需要使用采样方法，也就是本课中的Model-Free方法 PS：课程中迭代的值是值函数；周志华老师的西瓜书中迭代的是状态值函数；课程中迭代的是阅读全文

posted @ 2017-08-16 22:31 _1024 阅读(491) 评论(0) 推荐(0)

强化学习(David Silver)3：动态规划

摘要：1、简介 1.1、动态规划动态规划的性质:最优子结构；无后向性动态规划假定MDP所有信息已知，解决的是planning问题，不是RL问题 1.2、两类问题预测问题：给定策略，给出MDP/MRP和策略，计算策略值函数控制问题：不给策略，给出MDP/MRP，得出最优策略值函数 2、策略评估通过阅读全文

posted @ 2017-08-15 23:16 _1024 阅读(498) 评论(0) 推荐(0)

【论文阅读-DL】《One Model To Learn Them All》阅读

摘要：概念：One/Zero-shot learning 训练集中没有样本的学习；和transfer learning/domain adoption有关 NN很成功，但是每个领域都有自己的model；本文尝试搞一个统一的模型之前也有人尝试过NLP/语音识别/人脸检测的多任务学习，但是不是跨域地目前的阅读全文

posted @ 2017-08-14 06:00 _1024 阅读(172) 评论(0) 推荐(0)

强化学习(David Silver)2：MDP

摘要：1、MP(马尔科夫过程) 1.1、MDP介绍 1）MDP形式化地表达强化学习的过程(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP 1.2、MDP定义 MDP是一个二元组<S，P>，其中S是状态集合；P是状态转移概率 2、MRP(马尔科夫奖励过程) 在MP中加入了Rewa 阅读全文

posted @ 2017-08-14 05:15 _1024 阅读(681) 评论(0) 推荐(0)

【论文阅读-DL】《Understanding Black-box Predictions via Influence Functions》阅读

摘要：从模型角度出发解释模型： 1、在测试点周围拟合一个简单模型 2、扰动测试集，看预估值如何变化如何解释模型如何产生呢？使用影响函数来解释使用困难在于： 1、影响函数需要求二阶导； 2、需要模型凸且可微分；解决方案：二阶优化技术 Question：这篇文章里面的training point是指什阅读全文

posted @ 2017-08-13 23:24 _1024 阅读(351) 评论(0) 推荐(0)

强化学习(David Silver)1：简介

摘要：1、书《An introduction to Reforcement Learning》Sutton and Barto, 1998，400页《Algorithms for Reforcement Learning》Szepesvari，2010，偏数学，不到100页 2、强化学习的特点不存在阅读全文

posted @ 2017-08-13 21:49 _1024 阅读(1388) 评论(0) 推荐(0)

【论文阅读-DL】《Understanding Black-box Predictions via Influence Functions》阅读

摘要：摘要：基于robust statistics中的影响函数的学习，提出一套方案： 1）只需要梯度和二阶导； 2）非凸不可微问题也有一定意义； 3）对于香型模型和CNN：理解模型行为；debug模型；检测数据错误；如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！微信: legel 阅读全文

posted @ 2017-08-10 11:38 _1024 阅读(1069) 评论(0) 推荐(0)

生成模型和判别模型

摘要：1、定义：生成模型（或称产生式模型）和判别模型（或称判别式模型）的本质区别在于模型中观测序列x和状态序列y的决定关系。前者假设y决定x，后者假设x决定y。 2、生成模型特点 2.1、生成模型以“状态序列y按照一定的规律生成观察输入序列x”为假设，针对联合分布p(x,y)建模，通过估计生成概率最大的阅读全文

posted @ 2017-08-06 05:27 _1024 阅读(363) 评论(0) 推荐(0)

第6章：概率图模型

摘要：非常重要：逻辑归回模型与最大熵模型的等价性：逻辑回归模型，本质上就是一个最大熵模型最大熵模型，是基于最大熵原理的判别模型最大熵原理，在满足约束条件的情况下，选择熵最大的模型 1概率图模型分类 1.1有向图模型 1.1.1静态贝叶斯网络 1.1.2动态贝叶斯网络 1.1.2.1隐马尔科夫模型：用阅读全文

posted @ 2017-08-06 01:46 _1024 阅读(171) 评论(0) 推荐(0)

基础算法问题

摘要：找出字符串的最长不重复子串，输出长度公共祖先节点：http://blog.csdn.net/yangrujing/article/details/51985860 即在父串中寻找子串首次出现的位置求两个串中的第一个最长子串求子数组的最大和在二元树中找出和为某一值的所有路径在二元树中找出和为阅读全文

posted @ 2017-08-01 17:42 _1024 阅读(142) 评论(0) 推荐(0)

08 2017 档案