7 训练流程 / 33T token + 渐进式长上下文
架构、注意力、优化器都讲完了,剩下最后一个问题:
怎么把 1.6T 参数 × 33T token 真的跑下来?
V4 的训练 pipeline 有几个值得记住的设计:
渐进式上下文扩展、
先 dense 再 sparse 的注意力 warmup、
领域 specialist → On-Policy Distillation 统一。
7.1 预训练数据:33T token,质比量更关键
数据规模
- V4-Pro:33T tokens(≈ V3 的 1.3 倍)
- V4-Flash:32T tokens(与 Pro 数据基本对齐)
- 采样比例向长文档倾斜:科技论文、技术报告、长程代码仓库
- 显著增加数学和代码样本,加大多语言覆盖
数据清洗的"坑"
V4 论文专门提到:必须过滤掉自动生成的批量内容(spam-like template、模板化爬虫输出)。
这类样本表面看起来"自然",但会让模型在某些 token 分布上过度自信,造成训练崩塌。
教训:到了万亿 token 级别,数据质量 > 数据数量。
多 1T 的劣质数据,可能比少 5T 的优质数据还伤。
7.2 渐进式上下文扩展:不是一上来就训百万
V4 没有一开始就拉满 1M 上下文——那样既贵又学不好。它分四个阶段逐步扩展序列长度:
Stage 1 · 4K起步
dense attention
用完整注意力训练 1T+ token。让模型先学会"怎么看完一段话"——
这一步打稳基本语义和句法。如果一开始就上稀疏,模型还没学会注意,就让它"挑着看",结果很糟。
Stage 2 · 16K中段
dense attention
继续保持 dense,让 RoPE 频率适应更长的位置编码,loss 在 16K 上充分下降。
Stage 3 · 64K关键切换
dense → sparse warmup
引入 DSA + CSA/HCA,先用一个 short stage 暖身 Lightning Indexer——
让 indexer 先学会"哪些 token 重要",再正式切到稀疏。
这个 warmup 几十亿 token 就够,但没有它,sparse attention 收敛会很慢。
Stage 4 · 1M长上下文
sparse attention
全面切到稀疏注意力,序列长度逐步拉到 1M。大部分训练 token 在这一阶段消耗。
模型从一开始就在"稀疏模式"下学习——不是事后给它套副眼镜。
关键设计哲学
"train with sparse, infer with sparse"——而不是 dense 训完再蒸馏成 sparse。
V4 是第一个在万亿 token 级别上、从训练阶段就让模型适应稀疏注意力的旗舰开源模型。
这是它能在 128K 内几乎没有掉点的根本原因。
7.3 关键超参数
| 类别 | 超参 | V4-Flash | V4-Pro | 备注 |
| Muon(99.9% 参数) | momentum μ | 0.95 | Nesterov 变体 |
| weight decay λ | 0.1 | 解耦施加 |
| RMS rescale γ | 0.18 | 对齐 AdamW 典型 RMS |
| AdamW(embedding/RMSNorm) | β₁ / β₂ | 0.9 / 0.95 | 较小 β₂,更敏感 |
| ε | 1e-20 | 极小,避免数值偏置 |
| 覆盖参数量 | < 2B | 主要是嵌入和归一化 |
| 学习率 | peak lr | 2.7e-4 | 2.0e-4 | Pro 更小因为模型更大 |
| Batch | tokens/step | 75.5M | 94.4M | 大 batch 配合稳健优化器 |
| MTP | loss weight(主) | 0.3 | 大部分训练阶段 |
| loss weight(衰减期) | 0.1 | 学习率衰减阶段降权,避免干扰精调 |
7.4 后训练 Pipeline:V4 的关键改动
V3.2 用的是"SFT + 混合 RL"——一个 RL 阶段同时优化所有领域,结果是各领域互相打架,调参非常痛苦。
V4 把这一阶段彻底重写成两阶段范式:
Stage A · 领域 Specialist 训练
把后训练拆成多个独立领域:
- 数学推理
- 代码生成与调试
- Agent 工具调用
- 指令遵循与对话
每个领域独立训练一个 specialist:
SFT (高质量领域数据) → RL via GRPO
GRPO = Group Relative Policy Optimization,DeepSeek 自家的 RL 算法,不需要 value model,对一组 rollout 做相对排名学习。
Stage B · On-Policy Distillation(OPD)
把所有 specialist 整合成单一统一模型:
- 学生模型 = actor,自己采样 rollout
- 对每条 rollout,让对应领域的 teacher 给出 token 分布
- 优化学生与 teacher 的反向 KL 散度
- 没有 reward model、没有 advantage 估计,训练信号极稳定
相比 V3.2 的混合 RL,完全替换为 OPD——更稳定、更容易扩展到更多领域。
这是 V4 后训练最重要的一次架构变更。
7.5 三种推理模式:让用户自己挑预算
V4 在推理时支持三种模式(论文 Table 2/3)。一个模型,三套体验,按任务难度切换:
Non-think
快速直觉,无 chain-of-thought。
适合:闲聊、简单问答、低延迟场景。
Think High
显式推理链,中等推理预算。
适合:复杂逻辑题、长程代码、agent 任务。
Think Max
最大推理努力,384K+ 上下文。
适合:数学/代码竞赛、IMO 级别题目、需要长 chain-of-thought 的硬题。
7.6 Generative Reward Model(GRM)
传统 RLHF 用标量奖励模型(scalar RM):给一条 rollout 打个分。V4 换成了 Generative RM——
actor 网络本身就是 GRM,能生成"评判文本"再自己判断好坏。
三个好处:
- 少量标注高效泛化:rubric-guided RL 数据只需少量人工标注 rubric,GRM 就能学会"按 rubric 打分"。
- 避免 reward hacking:GRM 输出文本判断而非裸分数,更难被 actor 钻空子。
- 统一架构:actor 与 RM 共享权重,省下一份模型的训练和服务成本。
训练流程一句话
渐进式上下文 + 训练即稀疏 + Muon 稳收敛 + 后训练拆 specialist 再 OPD 统一——
四件事让 1.6T × 33T 这种量级的训练,用约 520 万美元就跑完了。
8 评测结果 / V4 到底有多强
论文的 Table 6/7/8 给出了大量 benchmark 数字。这一节挑最有代表性的几个,
既看 V4 的亮眼之处(数学/编程竞赛已经是顶级),也看短板(长上下文 1M、agent 任务相对落后)。
8.1 与闭源前沿模型对比
下图对比 DeepSeek-V4-Pro-Max 与 GPT-5.4、Claude Opus-4.6、Gemini-3.1-Pro 在六个关键 benchmark 上的表现。数据来自 V4 论文 Table 6。
所有指标已归一化到 0-100(HMMT/LCB/SimpleQA/SWE 直接用百分制;Codeforces Rating 按线性映射到 100 ≈ 3300 分;MRCR-1M 用论文原值)。
8.2 关键 Benchmark 详表
| Benchmark |
DS-V4-Pro |
Claude Opus-4.6 |
GPT-5.4 |
Gemini-3.1-Pro |
评价 |
| LiveCodeBench | 93.5 | 88.8 | — | 91.7 | SOTA |
| Codeforces Rating | 3206 | — | 3168 | 3052 | SOTA(人类约第 23) |
| SWE-Verified | 80.6 | 80.8 | — | — | 持平 |
| Terminal-Bench 2.0 | 67.9 | — | 75.1 | — | 落后 |
| MRCR 1M | 83.5 | 92.9 | — | 76.3 | 不如 Opus 4.6 |
| HMMT 2026 Feb | 95.2 | — | 97.7 | — | 差距很小 |
| Putnam-2025 | 120/120 | — | — | — | 满分! |
| SimpleQA-Verified | 57.9 | — | — | 75.6 | 事实知识弱 |
8.3 长上下文能力:MRCR 8-needle
长上下文 retrieval 能力对应的是 8 根针的 MRCR 测试,从 8K 拉到 1M。
解读:V4-Pro 在 128K 以内几乎没掉点(> 0.9),1M 时降到 0.59 但仍可用;
V4-Flash 因为更小,1M 时降到 0.49——但整体 1M 长上下文能力依然在第一梯队。
唯一差距:相比 Claude Opus 4.6 在 1M 时的 92.9 还有空间。
8.4 V4-Flash vs V4-Pro vs V3.2
| Benchmark | V3.2 Exp | V4-Flash-Max | V4-Pro-Max | Pro 相对 V3.2 提升 |
| LiveCodeBench | ~78 | 91.6 | 93.5 | +15.5 |
| HLE(Humanity's Last Exam) | ~22 | 34.8 | 37.7 | +15.7 |
| MRCR 1M | ~70 | 78.7 | 83.5 | +13.5 |
V4-Flash(小模型)在多数任务上接近 V4-Pro——说明架构改造(CSA/HCA + mHC + Muon)的收益不是只来自大模型。
8.5 真实工程任务:R&D Coding(论文 Table 8)
DeepSeek 内部真实 R&D 任务(200 道),比公开 benchmark 更能反映"实际可不可用":
R&D Coding 通过率
| Haiku 4.5 | | 13% |
| Sonnet 4.5 | | 47% |
| DS-V4-Pro-Max | | 67% |
| Opus 4.5 | | 70% |
| Opus 4.6 Thinking | | 80% |
DS-V4-Pro-Max 稳定超越 Sonnet 4.5,逼近 Opus 4.5,与 Opus 4.6 Thinking 还有差距。
这就是为什么 DeepSeek 内部开发者调查中,52% 的人说 V4-Pro 已经可以当默认编程模型。
8.6 评测亮点与短板(诚实清单)
亮点
- Putnam-2025 数学证明:120/120 满分
- Codeforces Rating 3206,相当于人类第 23 名
- LiveCodeBench 93.5,编程竞赛 SOTA
- 中文写作赢 Gemini-3.1-Pro(62.7% vs 34.1% 胜率)
- 128K 内长上下文几乎不掉点
- Flash 小模型也能跑出接近 Pro 的成绩
短板(论文自己承认)
- SWE-Pro / Terminal-Bench 落后闭源前沿模型
- MRCR 1M 与 Claude Opus 4.6 还有差距
- 最难中文写作落后 Claude Opus 4.5
- SimpleQA 事实知识弱于 Gemini-3.1-Pro
- 论文原话:"trailing state-of-the-art frontier models by 3-6 months"
9 整体回顾与展望 / Summary
讲完八节,回头看 V4 的设计——它其实是三条主线汇合的产物。
9.1 三条主线归纳
注意力线
MHA
↓ (KV 共享)
MLA
↓ (低秩压缩)
DSA
↓ (动态稀疏)
CSA / HCA
最终结果:KV cache 砍掉 99.7%。
优化器线
SGD
↓ (+ 动量)
Adam
↓ (+ 解耦 wd)
AdamW
↓ (整矩阵视角)
Muon
Newton-Schulz 正交化更新,跳出逐参数视角。
训练稳定性线
纯残差
↓
HC
↓
mHC
+ Anticipatory Routing
+ SwiGLU Clamping
不靠 trick,靠多层稳健性约束叠加。
9.2 V4 的设计哲学:每个数字都是算出来的
- CSA 块大小 = 4:4×16 = 64 个 head,刚好对齐一块 H800 SM。
- HCA 块大小 = 128:128 token 块对应一次 KV 加载的最佳粒度。
- HCA 滑窗 = 128:每个 query 看 128 个邻居,覆盖本地依赖且不超 cache line。
- Lightning Indexer top-k = 1024:稀疏率 ≈ 1% 时 attention 误差与 dense 持平。
- Muon RMS = 0.18:故意贴近 AdamW 的典型 RMS,复用 lr 调度。
- MTP loss = 0.3 → 0.1:训练中段全力学习多 token 预测,衰减期降权避免干扰精调。
V4 几乎没有一个"凭感觉拍的"数字——每个常数都对应一个硬件约束、一个梯度方差边界,或一条经验回路。
这是系统工程思维在大模型设计里的胜利。
9.3 局限与未来方向(论文第 6 章)
已知局限
- 架构变得相对复杂——CSA/HCA + mHC + Muon + OPD,新人上手门槛升高
- Anticipatory Routing 和 SwiGLU Clamping 的底层原理仍待研究——经验上有效,理论上还没说清
- 1M 上下文相比 Claude Opus 4.6 还有差距
- 事实知识、最难中文写作仍落后顶级闭源模型
未来方向
- 更优雅的架构蒸馏,把复杂结构简化回小模型
- 探索更稀疏的 embedding 模块(sparse embedding)
- 更低延迟的架构与系统技术
- 多模态能力扩展(V4 仍是纯文本)
- 将 OPD 推广到更多 specialist 领域
9.4 一个哲学层面的洞察
关于"压缩"的本质
V4 的所有压缩——KV cache 砍 99.7%、attention 稀疏到 1%、optimizer 把奇异值砸平——
归根到底在做同一件事:
"只沿着流形存路径,不存流形以外的空气。"
Transformer 的本质是把信息收敛到高维数据流形上。V4 是这件事的工程注脚——
它告诉我们:真正重要的不是参数有多少,而是参数有没有用在流形的方向上。
9.5 行业意义
结语
V4 不是"又一个开源大模型"。它是 DeepSeek 在 MLA / DeepSeekMoE / GRPO / DSA 四年积累的一次集大成。
每个组件都不是 V4 才有的发明——但四件事第一次在同一个模型里同时跑通。
更重要的是,它用 1/20 的成本做出了 能进第一梯队的开源旗舰,
并把 API 价格压到比同级别便宜一个数量级。
这是中国大模型工程能力的一份硬实力证明——
不是更大、不是更贵,而是更聪明地用每一个 FLOP、每一字节 KV、每一次更新方向。