https://carlos9310.github.io/2019/09/27/MRC-squad2.0/

其中output_weights、output_bias为新增的全连接层的参数,训练时随机初始化一组值,预测时直接通过张量名加载训练后的值。unstacked_logits的形状为[2,batch_size,seq_length],start_logits的形状为[batch_size,seq_length],表示每个批次中每个序列中的token作为答案起始的几率,end_logits的形状为[batch_size,seq_length],表示每个批次中每个序列中的token作为答案结束的几率。

基于上述模型的预测输出start_logits与end_logits,和真实的start_positions与end_positions,分别计算交叉熵的损失(分类模型典型的损失函数),然后利用已知优化器将损失不断减小,最终经过一定训练步数后确定最终的全连接层的参数。预测时,直接加载确定后的参数值,并由预测样本输出对应的预测结果。具体代码

什么决定token大小

posted on 2021-11-14 01:08  黑暗尽头的超音速炬火  阅读(25)  评论(0编辑  收藏  举报