摘要:
文章目录 BERT模型简介BERT模型拆解multi-head attentionFeedForwardNetworkTransformer Encoder位置编码PositionEmbeddingBERT输入EmbeddingMasked Language ModelNext Sentence P 阅读全文
摘要:
在使用tensorflow处理一些tensor时,有时需要对一个tensor取平均,可以使用tf.reduce_mean操作,但是这个没法处理带有mask的tensor数据,本文主要就是利用tensorflow的基本操作实现带mask的平均。 tf.reduce_mean 比如我们的数据是3维ten 阅读全文