2020年5月9日
摘要: 任务型对话中的开源系统 本文使用SL(监督学习)来监督每个模型部件的学习,同时RL(强化学习)做end to end的训练。虽然是End2End的方法,但是还是单独设计模型的部件,不同部件解决Pipeline方法中的某个或多个模块。 原文地址: https://arxiv.org/abs/1703. 阅读全文
posted @ 2020-05-09 14:29 宋岳庭 阅读(373) 评论(0) 推荐(0) 编辑