摘要:
本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton 有限MDP 有限MDP在RL中一般就是指如下图的交互式学习框架。(为了方便起见,把它当成离散化的过程) 其“有限”的特点表现在:state、reward、action三者只 阅读全文
摘要:
arXiv:1704.01212v2 [cs.LG] 12 Jun 2017MPNN 消息传递神经网络,专为图数据设计 其前向传播可划分为两个阶段:消息传递与读出 消息传播阶段如下: Mt是t时刻的消息函数,Ut为t时刻的节点更新函数,evw是边vw的特征,htv是顶点v在t时刻的hidden fe 阅读全文
摘要:
本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton K臂赌博机 问题描述:你有k个选择,每个选择对应一个奖励,收益由所选动作决定的平稳概率分布产生,目标为最大化某段时间内的总收益期望。 联系我们在chapter1中提到的re 阅读全文
摘要:
DOI10.1109/TNN.2008.2005605 任何数据都可以由一张图(Graph)表示, 图(Graph)是由一系列的点(vertex)与边(edge)的集合。 机器学习的目标是:拟合一个函数 τ(G, n) → Rm , 即映射图G与其中某一节点n成一个m-dim的实数向量。根据实际任务 阅读全文
摘要:
Reinforcement Learning Chapter 1 学习笔记 阅读全文