11.19

DeepSeek 对 DeepSeek-V3 模型进行了多项性能测试。在知识领域，基于教育类基准测试（如 MMLU、MMLU-Pro 和 GPQA）中，DeepSeek-V3 表现优异，分别取得了 88.5、75.9 和 59.1 的高分，超越了所有其他开源模型，并在性能上接近封闭模型如 GPT-4o 和 Claude-Sonnet-3.5。这意味着 DeepSeek-V3 在这一领域大幅缩小了开源模型与封闭模型之间的差距。

其次，在事实性知识测试中，DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 两个基准上领先于其他开源模型。在英文事实知识（SimpleQA）测试中虽稍逊于 GPT-4o 和 Claude-Sonnet-3.5，但在中文事实知识（中文 SimpleQA）中表现更强。

posted @ 2025-01-01 22:31 SDGVSBGDRH 阅读(104) 评论(0) 收藏举报