【KDD2019论文】基于深度价值网络的多司机智能派单模型 阅读笔记
强化学习与有监督学习的区别:
迭代的方式,训练的模型会决定训练的target
故强化学习要求训练稳定性——正则化方式
新增target neural network
优化问题:二分图匹配,最大化权值总和(value function、TD error)+满足constrain
权值大小与订单终点价值正相关——倾向于调往热区
与司机当前价值成反比——倾向于离开冷区
定义冷区与热区:长期的价值——一天期望的收益值
动作具有时间上的延展性,故需要价值函数也具有时间上的延展性
离线学习
线上规划
- 新的value function是通过旧的来得到的,有delay——on-policy
- 无法用到 importance sampling
- 执行策略时不能仅仅根据概率分布进行抽样,而必须采用组合优化方式解决
- 六边形格子系统进行多精度分割
- 自适应的分割表达
- 市中心:高精度
- 郊区:相对低精度
- 自适应的分割表达
- Lipschitz 正则化——控制value function的常数,使得value function更加光滑
- 光滑:输入上的小扰动不会导致函数输出的巨大变动
- 实验中测试:加入噪声
- 更好的学习的动态效应及收敛性
- 随机
- 机器人学习中DR思想
- 在训练环境中加入足够多的随机效果,确保智能体在所有情境下都能很好地工作(包括现实中的情况)
- 迁移学习的网络结构:多城市
- 渐进式网络结构
- 学习中决定迁移哪些知识、怎样迁移
- do-a-path-way架构,平行的渐进式架构
- 对独特的输入可以专门学习
- 迁移学习Focus on对通用的实时特征学习
- 渐进式网络结构
- 实验:(接驾距离——用户体验)
- 与DQN对比
- 收敛性
- 动态效应
- 衰减系数:越接近1,bias和variance的trade-off,更难训练
- 基于现实数据的离线实验
- 与动态规划
- 与DQN(单个司机视角)
- 最近提出的迁移学习方法
- A/B实验
- answer rate
- finish rate
- 司机总收入
- 训练数据:
- 司机轨迹
- 实时特征:空车数、司机数等
- 与DQN对比
![image-20200203185152877](/Users/zhaowanru/Library/Application Support/typora-user-images/image-20200203185152877.png)
其他解读:
[1] KDD2019展示视频