摘要:
之前的章节都是基于model base,这节是model free的方法。 1. model-base to model-free: 2. 计算\(q_{\pi k}:\) 3. MC base algorithm: step 1和model base是不一样的,后面的步骤是一样的。 4. MC e 阅读全文
摘要:
1. value iteration algorithm: 值迭代上一节已经介绍过: 1.1 policy update: 1.2 Value update: 此时,\(\pi_{k+1}\)和\(v_k\)都是已知的 1.3 procedure summary: 1.4 example: 2. p 阅读全文
摘要:
1. 贝尔曼最优公式: 1.1 定义: 第2课介绍了贝尔曼公式,里面的\(\pi (a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得state value最好 1.2 matrix-vector form: 2. 求解贝尔曼公式: 公式中,v是一个未知量,\(\pi\)也是要求解的最优策 阅读全文
摘要:
1. return和贝尔曼 上图说明从不同状态出发得到的return,依赖于从其他状态出发的return v是return,将第一张图写成矩阵的形式,r代表immediate reward,是已知的,矩阵P是策略加上state transition,也是已知的,求解v 这个公式实际上就是贝尔曼公式 阅读全文
摘要:
1. state:状态,可以是机器人的位置,速度,加速度等 2. action:对于每一个状态,可能的动作 3. state transition:状态转移 3.1 state transition probability: 4. policy:告诉agent在这个状态应该采用哪个action 5. 阅读全文
摘要:
![](https://img2024.cnblogs.com/blog/1746850/202411/1746850-20241105093751819-829769841.jpg) ![](https://img2024.cnblogs.com/blog/1746850/202411/1746850-20241105093753475-478576475.jpg) ![](https://im 阅读全文
摘要:
如上图所示,好的可操作度可以帮助远离奇异点 1. 可操作度: \(m = \sqrt{det(J(q) J(q)^T)}\) 2. 可操作度雅可比: 3. 可操作度控制器QP: 阅读全文
摘要:
1. 任务管理: WBC_walk task: "static_Contact"; "Roll_Pitch_Yaw_Pz"; "RedundantJoints"; "PxPy"; "SwingLeg"; "HandTrack"; "HandTrackJoints"; "PosRot" 使能: "st 阅读全文
摘要:
1. 全身运动学 青龙全身共31个自由度。 2个7自由度臂,2个头部自由度,3个腰部自由度,每个腿是6个自由度(髋关节3DOF,膝关节1DOF,踝关节2DOF) 共7+7+2+3+6+6=31 再加上浮动基座6自由度,总共37自由度。 2. 变量: 输入:13 * 3 = 39的纬度;约束:32 * 阅读全文
摘要:
1. Swing Leg Control \(J_i \in R^{3*3}\) 是足端雅可比;\(\tau _{i,ff}\) 是前馈力矩 \(\Lambda \in R^{3*3}\)是操作空间惯性矩阵;\(a_{i,ref} \in R^{3*3}\)是机体坐标系下的参考加速度 q是关节角度; 阅读全文