BERT词向量参数量计算_BASE

Embedding(词向量参数)计算:

  • 前置条件
    • 词汇量大小
      • vocab_size=30522
    • 文本输入最长大小
      • max_position_embeddings=512
    • 句子类型(标记上下文)
      • BERT用了2个句子,为0和1
      • token_type_embeddings=2
    • 隐藏层
      • hidden_size=768
  • 词向量参数
    • Token embedding=vocab_size*hidden_size=30522 * 768
  • 位置向量参数
    • Position_embeddings=max_position_embeddings*hidden_size=512 * 768
  • 句子类型参数
    • token_type_embeddings*hidden_size=2 * 768

综上:Embedding总参数=(30522+512+2)*768 = 23,835,648 = 22.7MB


参考论文

  • 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
  • 《Attention is all you need》
posted @   HaibaraYuki  阅读(10)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· AI Agent开发,如何调用三方的API Function,是通过提示词来发起调用的吗
点击右上角即可分享
微信分享提示