coolAlan

2020年7月24日

摘要：一、背景介绍传统的强化学习问题研究的是个体与环境交互，通过环境反馈的reward来指导个体学习策略，经典的算法有Q-Learning、DQN、DDPG等。但现实场景中，环境中个体并不是孤立，例如有多个机器人合力推举一个重物，也或者有对抗的个体进行阻碍。总之多个个体都需要学会合作亦或者竞争。多智阅读全文

posted @ 2020-07-24 10:02 coolAlan 阅读(2232) 评论(0) 推荐(0) 编辑

2020年6月27日

【回归】记Paddle强化学习训练营

摘要：回到博客园，上次发博已是5年，不曾想，机缘巧合，以参加一次Paddle训练营心得来回归博客园。偶然收到百度Paddle强化学习7日训练营邮件，心想研究生期间也曾学习过一段时间（不过一知半解），颇想进一步学习下并有有所实践，暗合我意。心想：虽然大部分时间要上班，这7天时间不长，应该很好坚持下来吧。阅读全文

posted @ 2020-06-27 09:02 coolAlan 阅读(270) 评论(0) 推荐(0) 编辑

2015年9月3日

主成分分析（PCA）

摘要： PCA，主成分分析主成分分析主要用于数据的降维。原始数据中数据特征的维度可能是很多的，但是这些特征并不一定都是重要的，如果我们能够将数据特征进行精简，不但能够减少存储空间，而且也有可能降低数据中的噪声干扰。举个例子：这里有一组数据，如下表1 2.5 1.2 -2.3 -2.8 -1 ... 阅读全文

posted @ 2015-09-03 15:44 coolAlan 阅读(876) 评论(0) 推荐(0) 编辑

2015年8月9日

动态规划

摘要：动态规划（dynamic programming）用于解决最优解问题，以前在做OJ上面的题目的时候，遇到这类问题总也不知道该怎么做，一些看似很棘手的问题也不知道如何设计算法，最近阅读《算法导论》，在此做一下总结和笔记。什么是动态规划（what）首先，要理解动态规划所针对的问题——最优化问题，... 阅读全文

posted @ 2015-08-09 11:24 coolAlan 阅读(169) 评论(0) 推荐(0) 编辑

2015年4月6日

【转载】协同过滤（Collaborative Filtering）

摘要： Collaborative Filtering协同过滤的主要目标：由于网络信息量的增多，用户往往被淹没在信息的海洋里，很难很轻易的找到自己感兴趣的topic。协同过滤就是为了把用户最可能感兴趣的信息推送给用户（Recommer system）。协同过滤的方法： model-base，user-bas... 阅读全文

posted @ 2015-04-06 14:40 coolAlan 阅读(284) 评论(0) 推荐(0) 编辑

2015年3月20日

MDP：马尔科夫决策过程（三）

摘要： MDP：马尔科夫决策过程（Markov Decision Process）贝尔曼等式：上节说到，这是对于确定性动作的模型。如果随机性动作的模型，应该表示为即，执行动作后的状态有多个，按照概率乘以值函数得到上式。因此，当前状态最优执行动作就是对于每个状态都有一个Vπ(S) ，所以对于每一步来说，可以得... 阅读全文

posted @ 2015-03-20 10:55 coolAlan 阅读(284) 评论(0) 推荐(0) 编辑

MDP：马尔科夫决策过程（二）

摘要： MDP：马尔科夫决策过程（Markov Decision Process）策略评价：对于确定性动作（deterministic actions），由于状态转换可能是无限的，那么奖惩函数之和的值也可能是无限的；对于随机性动作（stochastic actions），同样，奖惩函数期望之和也有可能是无限... 阅读全文

posted @ 2015-03-20 10:39 coolAlan 阅读(407) 评论(0) 推荐(0) 编辑

MDP：马尔科夫决策过程（一）

摘要： MDP：马尔科夫决策过程（Markov Decision Process）定义：一个马尔可夫模型包括如下部分状态集 S (States)动作集 A (Actions)奖惩函数 R (reward function)在状态 s 下，执行 a 动作的影响函数 T我们假设执行动作 a 的效果只与当... 阅读全文

posted @ 2015-03-20 09:56 coolAlan 阅读(384) 评论(0) 推荐(0) 编辑

2015年2月4日

【转载】接口和抽象类有什么区别

摘要：原文出处：http://blog.csdn.net/fenglibing/article/details/2745123接口和抽象类有什么区别你选择使用接口和抽象类的依据是什么？接口和抽象类的概念不一样。接口是对动作的抽象，抽象类是对根源的抽象。抽象类表示的是，这个对象是什么。接口表示的是，这个对象... 阅读全文

posted @ 2015-02-04 10:22 coolAlan 阅读(151) 评论(0) 推荐(0) 编辑

2015年1月31日

Git教程-CODE_CSDN

摘要：最近在用git管理工程进行开发，代码是托管的 CSDN上（code.csdn.net），这里将自己的设置和学习过程整理下来，与大家分享，有不对之处希望大家指出~Git-CSDN的配置登陆http://code.csdn.net/，点击“我的code”点击“创建项目”，进入后，创建项目如进入创建项目，... 阅读全文

posted @ 2015-01-31 10:02 coolAlan 阅读(742) 评论(0) 推荐(0) 编辑

非淡泊无以明志，非宁静无以致远

公告