摘要:
当state space太大的时候,需要用一个函数来对state value 或action value进行近似,方便处理 1. Algorithm for state value estimation 1.1 Objective function 这里dπ是权重,可以决定哪个st 阅读全文
摘要:
1. TD learning of state values 公式1是用来根据st的state value来更新t+1的状态。 公式2是没有被访问的状态,下一刻的state value等于上一刻的。 1.1两个概念:TD target ,TD error TD target: TD err 阅读全文
摘要:
这个文件主要是对最优问题的构造。 1. setupOptimalConrolProblem void LeggedRobotInterface::setupOptimalConrolProblem(const std::string& taskFile, const std::string& urd 阅读全文
摘要:
步态文件: 1. 步态类型 list { [0] stance 静止 [1] trot 快走,一种快速、稳定的交替对角步态 [2] standing_trot 在交替的步伐中插入静止阶段,增加稳定性 [3] flying_trot 在交替的步伐中插入腾空阶段,增加速度 [4] pace 同侧步态,左 阅读全文
摘要:
1. 创建MPC_ROS_Interface接口,以sqpMpc为例 //自定义接口 LeggedRobotInterface interface(taskFile, urdfFile, referenceFile); // 创建同步接口 auto gaitReceiverPtr = std::ma 阅读全文
摘要:
1. ModelHelperFunctions.cpp 1.1 updateCentroidalDynamics() : 质心动力学更新 template <typename SCALAR_T> void updateCentroidalDynamics(PinocchioInterfaceTpl< 阅读全文
摘要:
计算特定时间点指定腿的垂直速度约束 vz=trajectory[index].velocity(time) scalar_t SwingTrajectoryPlanner::getZvelocityConstraint(size_t leg, scalar_t time) const { 阅读全文
摘要:
定义: g(xee,vee)=Ax∗xee+Av∗vee+b xee:末端位置 vee:线速度 值: vector_t EndEffectorLinearConstraint::getValue(scalar_t time, const vector_t& state, 阅读全文
摘要:
公式: h(F)=u(Fz+Fgripper)−√F2x+F2y+ϵ>=0 Fgripper:抓力(如果有) ϵ:正则化参数,用于避免梯度计算时分母为0 vector_t FrictionC 阅读全文
摘要:
6.1 motivating example : mean estimation 采样足够多进行平均 迭代求平均: wk+1=wk−1k(wk−xk) 6.2 Robbins-Monro algorithm RM算法的优点是:不需要知道方程表达式, 阅读全文