2023 年 8月 11 日随笔档案 - 女贞路4号

2023年8月11日

摘要：在派单决策中的MDP MDP构建在派单决策中，构建MDP来表示不同时空下的价值，并应用到线上派单中。以司机为智能体，有： S：时间和空间预先划分为时间片和六边形区域，每一个(时间片-六边形)表示一个状态 A：两种动作：接单和空闲。 P：接单会100%概率转移到状态(完单时间片，终点六边形)，不接单阅读全文

posted @ 2023-08-11 17:57 女贞路4号阅读(182) 评论(0) 推荐(0) 编辑

从Bellman方程到派单算法（二）-- MDP的求解方法DP、MC和TD

摘要： DP、MC和TD 动态规划、蒙特卡罗和时序差分是求解贝尔曼方程的方法。不得不说，这三个名字无论是汉字还是英文缩写，都体现着王霸之气，一看就是不好惹的家伙，甚至它还没出手，你就倒下了。但是如果抛开证明不谈，只求学个整体的概念，看到这个名字的时候知道是怎么回事儿，这东西怎么用，那以大多数人的功力来说还是阅读全文

posted @ 2023-08-11 17:51 女贞路4号阅读(138) 评论(0) 推荐(0) 编辑

从Bellman方程到派单算法（一）-- MDP

摘要：从MP到MRP再到MDP MP M = {S, P} 马尔科夫过程。后续的状态只与当前状态有关，与当前状态之前的状态无关。 MRP M = {S, P, R, γ} 马尔科夫奖励过程。在马尔科夫过程的基础上增加了奖励R和衰减系数γ<0。定义Gt为在此时刻到过程结束后所得到的收益。衰减系数体现了时间阅读全文

posted @ 2023-08-11 17:23 女贞路4号阅读(70) 评论(0) 推荐(0) 编辑

女贞路4号

公告