摘要: 本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton 有限MDP 有限MDP在RL中一般就是指如下图的交互式学习框架。(为了方便起见,把它当成离散化的过程) 其“有限”的特点表现在:state、reward、action三者只 阅读全文
posted @ 2024-02-26 16:07 llllllgllllll 阅读(4) 评论(0) 推荐(0) 编辑
摘要: arXiv:1704.01212v2 [cs.LG] 12 Jun 2017MPNN 消息传递神经网络,专为图数据设计 其前向传播可划分为两个阶段:消息传递与读出 消息传播阶段如下: Mt是t时刻的消息函数,Ut为t时刻的节点更新函数,evw是边vw的特征,htv是顶点v在t时刻的hidden fe 阅读全文
posted @ 2024-02-07 11:17 llllllgllllll 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 本文参考《Reinforcement Learning:An Introduction(2nd Edition)》Sutton K臂赌博机 问题描述:你有k个选择,每个选择对应一个奖励,收益由所选动作决定的平稳概率分布产生,目标为最大化某段时间内的总收益期望。 联系我们在chapter1中提到的re 阅读全文
posted @ 2024-02-05 23:06 llllllgllllll 阅读(21) 评论(0) 推荐(0) 编辑
摘要: DOI10.1109/TNN.2008.2005605 任何数据都可以由一张图(Graph)表示, 图(Graph)是由一系列的点(vertex)与边(edge)的集合。 机器学习的目标是:拟合一个函数 τ(G, n) → Rm , 即映射图G与其中某一节点n成一个m-dim的实数向量。根据实际任务 阅读全文
posted @ 2024-01-29 22:54 llllllgllllll 阅读(11) 评论(0) 推荐(0) 编辑
摘要: Reinforcement Learning Chapter 1 学习笔记 阅读全文
posted @ 2023-11-13 21:33 llllllgllllll 阅读(18) 评论(0) 推荐(0) 编辑