摘要: 1. 问题:612个点 [(x,y,z), 标号1,标号2] 约束:整体 水平 垂直 2. State: {w_ij} Action: 校正点坐标 Reward: { -1 ; 1000/distance(s,a); 10} 3. 在状态S基于$\epsilon$贪心策略选择动作A, 转移到状态S’ 阅读全文
posted @ 2020-08-25 07:44 Nooni 阅读(930) 评论(0) 推荐(0) 编辑