摘要:
> git clone http://github.com/ndevilla/iniparser.git > cd iniparser > make > sudo cp libiniparser.* /usr/lib/ > sudo cp src/iniparser.h /usr/local/inc 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 值函数的近似 当状态 动作数目太多时,使用表格存储所有的状态 动作会造成维度灾难,无法求解大规模问题。 可以采用一个函数来近似这个这个表格,输入状态 动作,输 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 不基于模型(Model free)的预测 无法事先了解状态转移的概率矩阵 蒙特卡罗方法 从开始状态开始,到终结状态,找到一条完整的状态序列,以求解每个状态的值 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 不基于模型的控制 选取动作的方法 贪婪法,每次控制都选择状态值最大的动作,容易局部收敛,找不到全局最优。 引入 epsilon greedy,按 epsilo 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 动态规划 动态规划给出了求解强化学习的一种方式 使用条件 使用动态规划需要两个条件 总问题可以分解成一系列相互重叠的子问题 子问题的求解结果被存储下来并且可以 阅读全文
摘要:
[toc] "DQN发展历程(一)" "DQN发展历程(二)" "DQN发展历程(三)" "DQN发展历程(四)" "DQN发展历程(五)" 马尔可夫理论 马尔可夫性质 P[St+1 | St] = P[St+1 | S1,...,St] 给定当前状态 St ,过去的状态可以不用考虑 当前状态 St 阅读全文
摘要:
2019寒假训练营第三次作业 Deadline:2.18 23:00 出题人:福州大学 计算机科学与技术 周政演 学习视频课程(20') 学习福州大学网络课程 "网络空间安全概论" ,形成学习笔记,发布专门博客,至少完成 第五章 的视频学习。 或学习密歇根大学的网络课程 "Internet hist 阅读全文
摘要:
2019寒假训练营第二次作业 Deadline:2.3 23:00 学习视频课程(20') 学习福州大学网络课程 "网络空间安全概论" ,形成学习笔记,发布专门博客,至少完成第一、二周的视频学习。 或学习密歇根大学的网络课程 "Internet history" ,形成学习笔记,另外发布专门的博客。 阅读全文
摘要:
2019寒假训练营第一次作业 Deadline:2019 01 26 23:00 括号中为评分标准。 1. 在 "博客园" 上注册、开设技术博客, 并关注以下博客:(10') 2. 随笔和学习笔记使用 Markdown 格式,Markdown工具建议使用跨平台的知识管理工具 "有道云笔记" , "M 阅读全文