比赛记录 - 黑暗尽头的超音速炬火

https://carlos9310.github.io/2019/09/27/MRC-squad2.0/

其中output_weights、output_bias为新增的全连接层的参数，训练时随机初始化一组值，预测时直接通过张量名加载训练后的值。unstacked_logits的形状为[2,batch_size,seq_length]，start_logits的形状为[batch_size,seq_length]，表示每个批次中每个序列中的token作为答案起始的几率，end_logits的形状为[batch_size,seq_length]，表示每个批次中每个序列中的token作为答案结束的几率。

基于上述模型的预测输出start_logits与end_logits，和真实的start_positions与end_positions，分别计算交叉熵的损失(分类模型典型的损失函数)，然后利用已知优化器将损失不断减小，最终经过一定训练步数后确定最终的全连接层的参数。预测时，直接加载确定后的参数值，并由预测样本输出对应的预测结果。具体代码

什么决定token大小

posted on 2021-11-14 01:08 黑暗尽头的超音速炬火阅读(25) 评论(0) 编辑收藏举报