摘要:
一、背景介绍 传统的强化学习问题研究的是个体与环境交互,通过环境反馈的reward来指导个体学习策略,经典的算法有Q-Learning、DQN、DDPG等。 但现实场景中,环境中个体并不是孤立,例如有多个机器人合力推举一个重物,也或者有对抗的个体进行阻碍。总之多个个体都需要学会合作亦或者竞争。 多智 阅读全文
摘要:
回到博客园,上次发博已是5年,不曾想,机缘巧合,以参加一次Paddle训练营心得来回归博客园。 偶然收到百度Paddle强化学习7日训练营邮件,心想研究生期间也曾学习过一段时间(不过一知半解),颇想进一步学习下并有有所实践,暗合我意。 心想:虽然大部分时间要上班,这7天时间不长,应该很好坚持下来吧。 阅读全文
摘要:
PCA,主成分分析 主成分分析主要用于数据的降维。原始数据中数据特征的维度可能是很多的,但是这些特征并不一定都是重要的,如果我们能够将数据特征进行精简,不但能够减少存储空间,而且也有可能降低数据中的噪声干扰。 举个例子:这里有一组数据,如下 表1 2.5 1.2 -2.3 -2.8 -1 ... 阅读全文
摘要:
动态规划(dynamic programming)用于解决最优解问题,以前在做OJ上面的题目的时候,遇到这类问题总也不知道该怎么做,一些看似很棘手的问题也不知道如何设计算法,最近阅读《算法导论》,在此做一下总结和笔记。什么是动态规划(what) 首先,要理解动态规划所针对的问题——最优化问题,... 阅读全文
摘要:
Collaborative Filtering协同过滤的主要目标:由于网络信息量的增多,用户往往被淹没在信息的海洋里,很难很轻易的找到自己感兴趣的topic。协同过滤就是为了把用户最可能感兴趣的信息推送给用户(Recommer system)。协同过滤的方法: model-base,user-bas... 阅读全文
摘要:
MDP:马尔科夫决策过程(Markov Decision Process)贝尔曼等式:上节说到,这是对于确定性动作的模型。如果随机性动作的模型,应该表示为即,执行动作后的状态有多个,按照概率乘以值函数得到上式。因此,当前状态最优执行动作就是对于每个状态都有一个Vπ(S) ,所以对于每一步来说,可以得... 阅读全文
摘要:
MDP:马尔科夫决策过程(Markov Decision Process)策略评价:对于确定性动作(deterministic actions),由于状态转换可能是无限的,那么奖惩函数之和的值也可能是无限的;对于随机性动作(stochastic actions),同样,奖惩函数期望之和也有可能是无限... 阅读全文
摘要:
MDP:马尔科夫决策过程(Markov Decision Process)定义:一个马尔可夫模型包括如下部分状态集 S (States)动作集 A (Actions)奖惩函数 R (reward function)在状态 s 下,执行 a 动作的影响函数 T我们假设执行动作 a 的效果只与当... 阅读全文
摘要:
原文出处:http://blog.csdn.net/fenglibing/article/details/2745123接口和抽象类有什么区别你选择使用接口和抽象类的依据是什么?接口和抽象类的概念不一样。接口是对动作的抽象,抽象类是对根源的抽象。抽象类表示的是,这个对象是什么。接口表示的是,这个对象... 阅读全文
摘要:
最近在用git管理工程进行开发,代码是托管的 CSDN上(code.csdn.net),这里将自己的设置和学习过程整理下来,与大家分享,有不对之处希望大家指出~Git-CSDN的配置登陆http://code.csdn.net/,点击“我的code”点击“创建项目”,进入后,创建项目如进入创建项目,... 阅读全文