2024 年 7月 23 日随笔档案 - deephub

2024年7月23日

摘要： DeepSeek-V2是一个强大的开源混合专家（MoE）语言模型，通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数，其中每个令牌激活21亿参数，支持最大128K令牌的上下文长度。在开源模型中，DeepSeek-V2实现了顶级性能，成为最强大的开源MoE语阅读全文

posted @ 2024-07-23 11:02 deephub 阅读(49) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告