摘要:
在派单决策中的MDP MDP构建 在派单决策中,构建MDP来表示不同时空下的价值,并应用到线上派单中。以司机为智能体,有: S:时间和空间预先划分为时间片和六边形区域,每一个(时间片-六边形)表示一个状态 A:两种动作:接单和空闲。 P:接单会100%概率转移到状态(完单时间片,终点六边形),不接单 阅读全文
摘要:
DP、MC和TD 动态规划、蒙特卡罗和时序差分是求解贝尔曼方程的方法。不得不说,这三个名字无论是汉字还是英文缩写,都体现着王霸之气,一看就是不好惹的家伙,甚至它还没出手,你就倒下了。但是如果抛开证明不谈,只求学个整体的概念,看到这个名字的时候知道是怎么回事儿,这东西怎么用,那以大多数人的功力来说还是 阅读全文
摘要:
从MP到MRP再到MDP MP M = {S, P} 马尔科夫过程。后续的状态只与当前状态有关,与当前状态之前的状态无关。 MRP M = {S, P, R, γ} 马尔科夫奖励过程。在马尔科夫过程的基础上增加了奖励R和衰减系数γ<0。 定义Gt为在此时刻到过程结束后所得到的收益。衰减系数体现了时间 阅读全文