论文阅读《BERT for Joint Intent Classification and Slot Filling》
论文链接:https://arxiv.org/pdf/1902.10909.pdf
这篇论文的思路非常简单,就是把BERT用来同时做意图分类和槽填充,其中[CLS]对应的隐藏状态\(h_1\)用来做句子分类:
\[y^i = softmax(W^ih_1+b^i)
\]
同时又拿最后一层每个subword对应的隐藏状态\(h_2, ..., h_T\)做token分类:
\[y_n^s = softmax(W^sh_n + b^s), n \in 1, ..., N
\]
联合模型的目标函数为两个子任务极大似然之积:
\[p(y^i, y^s|x) = p(y^i|x)\prod_{n=1}^N p(y_n^s|x)
\]
实验结果: