11.20

(1) 在数学相关基准测试中，DeepSeek-V3 在所有非长链式思维（non-long-CoT）的开源和封闭模型中表现最为出色。在特定基准如 MATH-500 中，它甚至超过了 OpenAI o1-preview。

(2) 在编程相关任务中，DeepSeek-V3 在编程竞赛基准（如LiveCodeBench）上表现最佳。对于工程相关任务，尽管 DeepSeek-V3 略逊于 Claude-Sonnet-3.5，但仍然显著领先于其他所有模型，显示出其在各类技术基准上的强劲竞争力。

整体而言，DeepSeek-V3 测试结果显示它明显超越了许多领先的开源模型，包括 Llama-3.1-405B 和 Qwen 2.5-72B。在大多数测试中，甚至连封闭的 GPT-4o 也被它击败。不过，在专注于英语的 SimpleQA 和 FRAMES 测试中，OpenAI 的 GPT-4o 依然领先，分别取得了 38.2 和 80.5 的分数（相比之下，DeepSeek-V3 的分数是 24.9 和 73.3）。在中文和数学类的测试中，DeepSeek-V3 成绩领先于所有对手。在 Math-500 测试中，它得到了 90.2 的高分，远超 Qwen 的 80 分这一次优成绩。

posted @ 2025-01-01 22:31 SDGVSBGDRH 阅读(67) 评论(0) 收藏举报

刷新页面返回顶部

liyize

11.20

公告