学习笔记（48）- TC-Bot

任务型对话中的开源系统

本文使用SL（监督学习）来监督每个模型部件的学习，同时RL（强化学习）做end-to-end的训练。虽然是End2End的方法，但是还是单独设计模型的部件，不同部件解决Pipeline方法中的某个或多个模块。