BERT词向量参数量计算_BASE
Embedding(词向量参数)计算:
- 前置条件
- 词汇量大小
- vocab_size=30522
- 文本输入最长大小
- max_position_embeddings=512
- 句子类型(标记上下文)
- BERT用了2个句子,为0和1
- token_type_embeddings=2
- 隐藏层
- hidden_size=768
- 词汇量大小
- 词向量参数
- Token embedding=vocab_size*hidden_size=30522 * 768
- 位置向量参数
- Position_embeddings=max_position_embeddings*hidden_size=512 * 768
- 句子类型参数
- token_type_embeddings*hidden_size=2 * 768
综上:Embedding总参数=(30522+512+2)*768 = 23,835,648 = 22.7MB
参考论文
- 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
- 《Attention is all you need》
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· AI Agent开发,如何调用三方的API Function,是通过提示词来发起调用的吗