英伟达刷新MLPerf的DeepSeek-V3 671B训练记录：提速60%，最快2.02分钟完成

IT之家 2026-06-17 09:14:31

10秒看完全文要点

看要点

英伟达昨日（6月16日）发布博文，宣布在MLPerf Training 6.0全部7项基准测试中，其Blackwell平台拿下最快训练成绩，并成为唯一覆盖全部测试项目的平台。

英伟达刷新 MLPerf 的 DeepSeek-V3 671B 训练记录：提速 60%，最快 2.02 分钟完成

IT之家注：MLPerf Training是业界常用的AI训练基准测试体系，用来比较不同硬件与系统在模型训练任务中的速度和效率。

而昨日（6月16日）最新发布的MLPerf Training 6.0测试套件中，主要包含7项核心测试，涵盖了当前主流的大语言模型、生成式AI及经典机器学习工作负载：

DeepSeek-V3：基于拥有671B参数的大规模预训练语言模型，侧重测试稀疏计算（MoE架构）的性能。

GPT-OSS 20B：包含210亿参数的生成式预训练语言模型测试。

Llama 3.1-8B：主流的8B参数大规模语言模型（LLM）预训练测试。

Llama 2-70B：利用低秩自适应（LoRA）技术对70B参数的Llama 2模型进行微调测试。

FLUX.1：文生图（Text-to-Image）生成模型测试，测试多节点扩展下的处理能力。

GNN（图神经网络）：基于RGAT模型的大规模图结构数据分类测试。

推荐系统 (Recommender)：基于DLRM（深度学习推荐模型）的处理测试，通常用于评估大规模内容分发与广告推荐性能。

MLPerf Training 6.0测试套件主要新增了DeepSeek-V3 671B和GPT-OSS-20B两个混合专家模型（MoE）预训练工作负载。

英伟达此次提交了GB200 NVL72和GB300 NVL72两套机架级系统。每套NVL72内部通过第5代NVLink Switch连接72块GPU，把算力和内存整合成统一资源池。

在性能层面，GB300 NVL72较GB200 NVL72在同等规模下最高可带来1.6倍训练速度提升。

英伟达刷新 MLPerf 的 DeepSeek-V3 671B 训练记录：提速 60%，最快 2.02 分钟完成

在规模层面，英伟达把Blackwell训练集群推到8192块GPU。其在DeepSeek-V3 671B任务上，用GB200 NVL72完成8192块GPU规模提交，成为迄今MLPerf Training中规模最大的Blackwell成绩。

英伟达刷新 MLPerf 的 DeepSeek-V3 671B 训练记录：提速 60%，最快 2.02 分钟完成

CoreWeave则借助采用Spectrum-X以太网的GB300 NVL72系统，在8192块GPU规模上把DeepSeek-V3 671B训练到目标质量，耗时缩短至2.02分钟。IT之家附上相关截图如下：

英伟达刷新 MLPerf 的 DeepSeek-V3 671B 训练记录：提速 60%，最快 2.02 分钟完成