10 2024 档案

摘要:目录引入TD learing of state valuesTD learing of action values SarsaTD learing of action values Expected SarsaTD learing of action values n-step SarsaTD le 阅读全文
摘要:目录Robbins-Monro algorithmStochastic gradient descentBGD、MBGD、 and SGDSummary Robbins-Monro algorithm 迭代式求平均数的算法 Stochasticapproximation(SA) 阅读全文
摘要:目录MC BasicMC Exploring StartsMC Epsilon-Greedy MC Basic 从modelbaseReinforcementlearning过渡到modelfree的\(\: Reinforceme 阅读全文
摘要:目录Value iteration algorithmPolicy iteration algorithmTruncated policy iteration algorithm Value iteration algorithm \[v_{k+1} = f(v_k) = \max_{\pi}\le 阅读全文
摘要:目录最优策略和公式推导右侧最优化问题公式求解以及最优性Contraction mapping theorem(压缩映射定理)解决贝尔曼最优公式分析最优策略(analyzing optimal policies)Summary 最优策略和公式推导 首先定义一个策略比另一个策略好: \[v_{\pi_{ 阅读全文
摘要:目录Ajax前后端分离开发前端工程化环境准备Vue项目Vue项目开发流程Vue组件库ElementVue路由打包部署 Ajax Ajax:Asynchronous JavaScript And XML,异步的JavaScript和XML 作用: 数据交换:通过Ajax可以给服务器发送请求,并获取服务 阅读全文
摘要:目录Motivating examplesstate valueBellman equationMatrix-vector formAction valuesummary Motivating examples 一个核心概念:state value 一个基本的工具:Bellman equation 阅读全文
摘要:什么是JavaScript? JavaScript:简称Js,是一门跨平台、面向对象的脚本语言。是用来控制网页行为的,它能使网页可交互 JavaScript和Java是完全不同的语言,无论是概念还是设计。但是基础语法类似。 JavaScript JavaScript引入方式 内部脚本:将JS代码定义 阅读全文
摘要:Web:全球广域网,也称为万维网(www World Wide Web),能够通过浏览器访问的网站。 web网站的工作流程: 网页由哪些部分组成:文字、图片、音频、视频、超链接 我们看到的网页背后的本质:前端代码 前端代码是如何转化成用户眼中的网页?:通过浏览器的解析和渲染转化成用户看到的网页,浏览 阅读全文
摘要:state:Thestatusofagentwithrespecttotheenvironment (agent 相对于环境的状态) 对于下面的网格地图来说:state就相 阅读全文
