2019 年 10月 27 日随笔档案 - benda

2019年10月27日

摘要： 1. 问题描述重复在k个选项或动作中进行选择，每次做出选择后，你都会得到一个收益，收益由你选择的动作决定的平稳概率分布产生【action P(val)】,你的目标是在某段时间内最大化总收益的期望 1.1 基本符号定义 $A_t$:t时刻选择的动作 $R_t:A_t$对应的收益 $q_ (a)$:任阅读全文

posted @ 2019-10-27 16:41 benda 阅读(444) 评论(0) 推荐(0) 编辑

强化学习 1.导论

摘要： 1. 基本介绍 1.1 基本思想智能体为了实现目标而不断与环境产生交互的过程中，抓住智能体所面对的真实问题的主要方面。具备学习能力的智能体必须在某种程度上感知环境的状态，然后采取动作并影响环境状态，智能体必须同时拥有和环境状态有关的一个或多个明确的目标。 1.2 关键特征试探与开发的这种权衡明阅读全文

posted @ 2019-10-27 16:40 benda 阅读(339) 评论(0) 推荐(0) 编辑

benda

公告