7 训练流程 / 33T token + 渐进式长上下文

架构、注意力、优化器都讲完了,剩下最后一个问题: 怎么把 1.6T 参数 × 33T token 真的跑下来? V4 的训练 pipeline 有几个值得记住的设计: 渐进式上下文扩展先 dense 再 sparse 的注意力 warmup领域 specialist → On-Policy Distillation 统一

7.1 预训练数据:33T token,质比量更关键

数据规模

  • V4-Pro:33T tokens(≈ V3 的 1.3 倍)
  • V4-Flash:32T tokens(与 Pro 数据基本对齐)
  • 采样比例向长文档倾斜:科技论文、技术报告、长程代码仓库
  • 显著增加数学代码样本,加大多语言覆盖

数据清洗的"坑"

V4 论文专门提到:必须过滤掉自动生成的批量内容(spam-like template、模板化爬虫输出)。 这类样本表面看起来"自然",但会让模型在某些 token 分布上过度自信,造成训练崩塌。

教训:到了万亿 token 级别,数据质量 > 数据数量。 多 1T 的劣质数据,可能比少 5T 的优质数据还伤。

7.2 渐进式上下文扩展:不是一上来就训百万

V4 没有一开始就拉满 1M 上下文——那样既贵又学不好。它分四个阶段逐步扩展序列长度:

Stage 1 · 4K起步 dense attention
完整注意力训练 1T+ token。让模型先学会"怎么看完一段话"—— 这一步打稳基本语义和句法。如果一开始就上稀疏,模型还没学会注意,就让它"挑着看",结果很糟。
Stage 2 · 16K中段 dense attention
继续保持 dense,让 RoPE 频率适应更长的位置编码,loss 在 16K 上充分下降。
Stage 3 · 64K关键切换 dense → sparse warmup
引入 DSA + CSA/HCA,先用一个 short stage 暖身 Lightning Indexer—— 让 indexer 先学会"哪些 token 重要",再正式切到稀疏。 这个 warmup 几十亿 token 就够,但没有它,sparse attention 收敛会很慢。
Stage 4 · 1M长上下文 sparse attention
全面切到稀疏注意力,序列长度逐步拉到 1M。大部分训练 token 在这一阶段消耗。 模型从一开始就在"稀疏模式"下学习——不是事后给它套副眼镜。
关键设计哲学 "train with sparse, infer with sparse"——而不是 dense 训完再蒸馏成 sparse。 V4 是第一个在万亿 token 级别上、从训练阶段就让模型适应稀疏注意力的旗舰开源模型。 这是它能在 128K 内几乎没有掉点的根本原因。

7.3 关键超参数

类别超参V4-FlashV4-Pro备注
Muon(99.9% 参数)momentum μ0.95Nesterov 变体
weight decay λ0.1解耦施加
RMS rescale γ0.18对齐 AdamW 典型 RMS
AdamW(embedding/RMSNorm)β₁ / β₂0.9 / 0.95较小 β₂,更敏感
ε1e-20极小,避免数值偏置
覆盖参数量< 2B主要是嵌入和归一化
学习率peak lr2.7e-42.0e-4Pro 更小因为模型更大
Batchtokens/step75.5M94.4M大 batch 配合稳健优化器
MTPloss weight(主)0.3大部分训练阶段
loss weight(衰减期)0.1学习率衰减阶段降权,避免干扰精调

7.4 后训练 Pipeline:V4 的关键改动

V3.2 用的是"SFT + 混合 RL"——一个 RL 阶段同时优化所有领域,结果是各领域互相打架,调参非常痛苦。 V4 把这一阶段彻底重写成两阶段范式

Stage A · 领域 Specialist 训练

把后训练拆成多个独立领域

  • 数学推理
  • 代码生成与调试
  • Agent 工具调用
  • 指令遵循与对话

每个领域独立训练一个 specialist:

SFT (高质量领域数据) → RL via GRPO

GRPO = Group Relative Policy Optimization,DeepSeek 自家的 RL 算法,不需要 value model,对一组 rollout 做相对排名学习。

Stage B · On-Policy Distillation(OPD)

把所有 specialist 整合成单一统一模型

  • 学生模型 = actor,自己采样 rollout
  • 对每条 rollout,让对应领域的 teacher 给出 token 分布
  • 优化学生与 teacher 的反向 KL 散度
  • 没有 reward model、没有 advantage 估计,训练信号极稳定

相比 V3.2 的混合 RL,完全替换为 OPD——更稳定、更容易扩展到更多领域。 这是 V4 后训练最重要的一次架构变更。

7.5 三种推理模式:让用户自己挑预算

V4 在推理时支持三种模式(论文 Table 2/3)。一个模型,三套体验,按任务难度切换:

Non-think

快速直觉,无 chain-of-thought。

适合:闲聊、简单问答、低延迟场景。

Think High

显式推理链,中等推理预算。

适合:复杂逻辑题、长程代码、agent 任务。

Think Max

最大推理努力,384K+ 上下文。

适合:数学/代码竞赛、IMO 级别题目、需要长 chain-of-thought 的硬题。

7.6 Generative Reward Model(GRM)

传统 RLHF 用标量奖励模型(scalar RM):给一条 rollout 打个分。V4 换成了 Generative RM—— actor 网络本身就是 GRM,能生成"评判文本"再自己判断好坏。

三个好处:

训练流程一句话 渐进式上下文 + 训练即稀疏 + Muon 稳收敛 + 后训练拆 specialist 再 OPD 统一—— 四件事让 1.6T × 33T 这种量级的训练,用约 520 万美元就跑完了

8 评测结果 / V4 到底有多强

论文的 Table 6/7/8 给出了大量 benchmark 数字。这一节挑最有代表性的几个, 既看 V4 的亮眼之处(数学/编程竞赛已经是顶级),也看短板(长上下文 1M、agent 任务相对落后)。

8.1 与闭源前沿模型对比

下图对比 DeepSeek-V4-Pro-Max 与 GPT-5.4、Claude Opus-4.6、Gemini-3.1-Pro 在六个关键 benchmark 上的表现。数据来自 V4 论文 Table 6。

所有指标已归一化到 0-100(HMMT/LCB/SimpleQA/SWE 直接用百分制;Codeforces Rating 按线性映射到 100 ≈ 3300 分;MRCR-1M 用论文原值)。

8.2 关键 Benchmark 详表

Benchmark DS-V4-Pro Claude Opus-4.6 GPT-5.4 Gemini-3.1-Pro 评价
LiveCodeBench93.588.891.7SOTA
Codeforces Rating320631683052SOTA(人类约第 23)
SWE-Verified80.680.8持平
Terminal-Bench 2.067.975.1落后
MRCR 1M83.592.976.3不如 Opus 4.6
HMMT 2026 Feb95.297.7差距很小
Putnam-2025120/120满分!
SimpleQA-Verified57.975.6事实知识弱

8.3 长上下文能力:MRCR 8-needle

长上下文 retrieval 能力对应的是 8 根针的 MRCR 测试,从 8K 拉到 1M。

解读:V4-Pro 在 128K 以内几乎没掉点(> 0.9),1M 时降到 0.59 但仍可用; V4-Flash 因为更小,1M 时降到 0.49——但整体 1M 长上下文能力依然在第一梯队。 唯一差距:相比 Claude Opus 4.6 在 1M 时的 92.9 还有空间。

8.4 V4-Flash vs V4-Pro vs V3.2

BenchmarkV3.2 ExpV4-Flash-MaxV4-Pro-MaxPro 相对 V3.2 提升
LiveCodeBench~7891.693.5+15.5
HLE(Humanity's Last Exam)~2234.837.7+15.7
MRCR 1M~7078.783.5+13.5

V4-Flash(小模型)在多数任务上接近 V4-Pro——说明架构改造(CSA/HCA + mHC + Muon)的收益不是只来自大模型。

8.5 真实工程任务:R&D Coding(论文 Table 8)

DeepSeek 内部真实 R&D 任务(200 道),比公开 benchmark 更能反映"实际可不可用":

R&D Coding 通过率
Haiku 4.5
13%
Sonnet 4.5
47%
DS-V4-Pro-Max
67%
Opus 4.5
70%
Opus 4.6 Thinking
80%

DS-V4-Pro-Max 稳定超越 Sonnet 4.5逼近 Opus 4.5,与 Opus 4.6 Thinking 还有差距。 这就是为什么 DeepSeek 内部开发者调查中,52% 的人说 V4-Pro 已经可以当默认编程模型

8.6 评测亮点与短板(诚实清单)

亮点
  • Putnam-2025 数学证明:120/120 满分
  • Codeforces Rating 3206,相当于人类第 23 名
  • LiveCodeBench 93.5,编程竞赛 SOTA
  • 中文写作赢 Gemini-3.1-Pro(62.7% vs 34.1% 胜率)
  • 128K 内长上下文几乎不掉点
  • Flash 小模型也能跑出接近 Pro 的成绩
短板(论文自己承认)
  • SWE-Pro / Terminal-Bench 落后闭源前沿模型
  • MRCR 1M 与 Claude Opus 4.6 还有差距
  • 最难中文写作落后 Claude Opus 4.5
  • SimpleQA 事实知识弱于 Gemini-3.1-Pro
  • 论文原话:"trailing state-of-the-art frontier models by 3-6 months"

9 整体回顾与展望 / Summary

讲完八节,回头看 V4 的设计——它其实是三条主线汇合的产物。

9.1 三条主线归纳

注意力线

MHA
↓ (KV 共享)
MLA
↓ (低秩压缩)
DSA
↓ (动态稀疏)
CSA / HCA

最终结果:KV cache 砍掉 99.7%

优化器线

SGD
↓ (+ 动量)
Adam
↓ (+ 解耦 wd)
AdamW
↓ (整矩阵视角)
Muon

Newton-Schulz 正交化更新,跳出逐参数视角

训练稳定性线

纯残差

HC

mHC
+ Anticipatory Routing
+ SwiGLU Clamping

不靠 trick,靠多层稳健性约束叠加。

9.2 V4 的设计哲学:每个数字都是算出来的

V4 几乎没有一个"凭感觉拍的"数字——每个常数都对应一个硬件约束、一个梯度方差边界,或一条经验回路。 这是系统工程思维在大模型设计里的胜利。

9.3 局限与未来方向(论文第 6 章)

已知局限

  • 架构变得相对复杂——CSA/HCA + mHC + Muon + OPD,新人上手门槛升高
  • Anticipatory Routing 和 SwiGLU Clamping 的底层原理仍待研究——经验上有效,理论上还没说清
  • 1M 上下文相比 Claude Opus 4.6 还有差距
  • 事实知识、最难中文写作仍落后顶级闭源模型

未来方向

  • 更优雅的架构蒸馏,把复杂结构简化回小模型
  • 探索更稀疏的 embedding 模块(sparse embedding)
  • 低延迟的架构与系统技术
  • 多模态能力扩展(V4 仍是纯文本)
  • 将 OPD 推广到更多 specialist 领域

9.4 一个哲学层面的洞察

关于"压缩"的本质 V4 的所有压缩——KV cache 砍 99.7%、attention 稀疏到 1%、optimizer 把奇异值砸平—— 归根到底在做同一件事
"只沿着流形存路径,不存流形以外的空气。" Transformer 的本质是把信息收敛到高维数据流形上。V4 是这件事的工程注脚—— 它告诉我们:真正重要的不是参数有多少,而是参数有没有用在流形的方向上

9.5 行业意义

MIT
License 开源
1.6T
总参数 / 32B 激活
$5.2M
估算训练成本
$0.30
API / 百万 token
结语 V4 不是"又一个开源大模型"。它是 DeepSeek 在 MLA / DeepSeekMoE / GRPO / DSA 四年积累的一次集大成。 每个组件都不是 V4 才有的发明——但四件事第一次在同一个模型里同时跑通。 更重要的是,它用 1/20 的成本做出了 能进第一梯队的开源旗舰, 并把 API 价格压到比同级别便宜一个数量级

这是中国大模型工程能力的一份硬实力证明—— 不是更大、不是更贵,而是更聪明地用每一个 FLOP、每一字节 KV、每一次更新方向。