复杂系统 | 20240116 · 考试题目回忆版
相关链接:
- RL 基础 | Value Iteration 的收敛性证明
- RL 基础 | Policy Iteration 的收敛性证明
- 复杂系统 | 考前知识点总结(不完全)
- “嵌套分区法,是一种良策;将海洋分成块,每块都探测。”
- 概述:基于事件的优化方法 / 事件驱动优化 / Event-Based Optimization / EBO
十个判断题,感觉都是正确的()
十个选择题,应该也算比较基础,考到了 EBO 和什么 steady state distribution,什么 estimate interval \((1/t)^{1/2}\) 收敛之类。
(btw 这次客观题答错不扣分;jls 当时说,想答错扣分,保证 random policy 的得分期望为 0… 幸好后来没有实施)
有三个大题,第一个是 alias method 画表 + 数归证明。
第二个是 policy gradient theorem,第一问给出形式,第二问证明。(没复习 policy gradient theorem,现场推的东西是错的,完蛋…)
第三个是给出并证明 Little's Law。