7 训练流程 / 33T token + 渐进式长上下文

架构、注意力、优化器都讲完了，剩下最后一个问题： 怎么把 1.6T 参数 × 33T token 真的跑下来？ V4 的训练 pipeline 有几个值得记住的设计：渐进式上下文扩展、先 dense 再 sparse 的注意力 warmup、领域 specialist → On-Policy Distillation 统一。

7.1 预训练数据：33T token，质比量更关键

数据规模

V4-Pro：33T tokens（≈ V3 的 1.3 倍）
V4-Flash：32T tokens（与 Pro 数据基本对齐）
采样比例向长文档倾斜：科技论文、技术报告、长程代码仓库
显著增加数学和代码样本，加大多语言覆盖

数据清洗的"坑"

V4 论文专门提到：必须过滤掉自动生成的批量内容（spam-like template、模板化爬虫输出）。这类样本表面看起来"自然"，但会让模型在某些 token 分布上过度自信，造成训练崩塌。

教训：到了万亿 token 级别，数据质量 > 数据数量。多 1T 的劣质数据，可能比少 5T 的优质数据还伤。

7.2 渐进式上下文扩展：不是一上来就训百万

V4 没有一开始就拉满 1M 上下文——那样既贵又学不好。它分四个阶段逐步扩展序列长度：

Stage 1 · 4K起步 dense attention

用完整注意力训练 1T+ token。让模型先学会"怎么看完一段话"—— 这一步打稳基本语义和句法。如果一开始就上稀疏，模型还没学会注意，就让它"挑着看"，结果很糟。

Stage 2 · 16K中段 dense attention

继续保持 dense，让 RoPE 频率适应更长的位置编码，loss 在 16K 上充分下降。

Stage 3 · 64K关键切换 dense → sparse warmup

引入 DSA + CSA/HCA，先用一个 short stage 暖身 Lightning Indexer—— 让 indexer 先学会"哪些 token 重要"，再正式切到稀疏。这个 warmup 几十亿 token 就够，但没有它，sparse attention 收敛会很慢。

Stage 4 · 1M长上下文 sparse attention

全面切到稀疏注意力，序列长度逐步拉到 1M。大部分训练 token 在这一阶段消耗。模型从一开始就在"稀疏模式"下学习——不是事后给它套副眼镜。

关键设计哲学 "train with sparse, infer with sparse"——而不是 dense 训完再蒸馏成 sparse。 V4 是第一个在万亿 token 级别上、从训练阶段就让模型适应稀疏注意力的旗舰开源模型。这是它能在 128K 内几乎没有掉点的根本原因。

7.3 关键超参数

类别	超参	V4-Flash	V4-Pro	备注
Muon（99.9% 参数）	momentum μ	0.95		Nesterov 变体
	weight decay λ	0.1		解耦施加
	RMS rescale γ	0.18		对齐 AdamW 典型 RMS
AdamW（embedding/RMSNorm）	β₁ / β₂	0.9 / 0.95		较小 β₂，更敏感
	ε	1e-20		极小，避免数值偏置
	覆盖参数量	< 2B		主要是嵌入和归一化
学习率	peak lr	2.7e-4	2.0e-4	Pro 更小因为模型更大
Batch	tokens/step	75.5M	94.4M	大 batch 配合稳健优化器
MTP	loss weight（主）	0.3		大部分训练阶段
MTP	loss weight（衰减期）	0.1		学习率衰减阶段降权，避免干扰精调

7.4 后训练 Pipeline：V4 的关键改动

V3.2 用的是"SFT + 混合 RL"——一个 RL 阶段同时优化所有领域，结果是各领域互相打架，调参非常痛苦。 V4 把这一阶段彻底重写成两阶段范式：

Stage A · 领域 Specialist 训练

把后训练拆成多个独立领域：

数学推理
代码生成与调试
Agent 工具调用
指令遵循与对话

每个领域独立训练一个 specialist：

SFT (高质量领域数据) → RL via GRPO

GRPO = Group Relative Policy Optimization，DeepSeek 自家的 RL 算法，不需要 value model，对一组 rollout 做相对排名学习。

Stage B · On-Policy Distillation（OPD）

把所有 specialist 整合成单一统一模型：

学生模型 = actor，自己采样 rollout
对每条 rollout，让对应领域的 teacher 给出 token 分布
优化学生与 teacher 的反向 KL 散度
没有 reward model、没有 advantage 估计，训练信号极稳定

相比 V3.2 的混合 RL，完全替换为 OPD——更稳定、更容易扩展到更多领域。这是 V4 后训练最重要的一次架构变更。

7.5 三种推理模式：让用户自己挑预算

V4 在推理时支持三种模式（论文 Table 2/3）。一个模型，三套体验，按任务难度切换：

Non-think

快速直觉，无 chain-of-thought。

适合：闲聊、简单问答、低延迟场景。

Think High

显式推理链，中等推理预算。

适合：复杂逻辑题、长程代码、agent 任务。

Think Max

最大推理努力，384K+ 上下文。

适合：数学/代码竞赛、IMO 级别题目、需要长 chain-of-thought 的硬题。

7.6 Generative Reward Model（GRM）

传统 RLHF 用标量奖励模型（scalar RM）：给一条 rollout 打个分。V4 换成了 Generative RM—— actor 网络本身就是 GRM，能生成"评判文本"再自己判断好坏。

三个好处：

少量标注高效泛化：rubric-guided RL 数据只需少量人工标注 rubric，GRM 就能学会"按 rubric 打分"。
避免 reward hacking：GRM 输出文本判断而非裸分数，更难被 actor 钻空子。
统一架构：actor 与 RM 共享权重，省下一份模型的训练和服务成本。

训练流程一句话 渐进式上下文 + 训练即稀疏 + Muon 稳收敛 + 后训练拆 specialist 再 OPD 统一—— 四件事让 1.6T × 33T 这种量级的训练，用约 520 万美元就跑完了。

8 评测结果 / V4 到底有多强

论文的 Table 6/7/8 给出了大量 benchmark 数字。这一节挑最有代表性的几个，既看 V4 的亮眼之处（数学/编程竞赛已经是顶级），也看短板（长上下文 1M、agent 任务相对落后）。

8.1 与闭源前沿模型对比

下图对比 DeepSeek-V4-Pro-Max 与 GPT-5.4、Claude Opus-4.6、Gemini-3.1-Pro 在六个关键 benchmark 上的表现。数据来自 V4 论文 Table 6。

所有指标已归一化到 0-100（HMMT/LCB/SimpleQA/SWE 直接用百分制；Codeforces Rating 按线性映射到 100 ≈ 3300 分；MRCR-1M 用论文原值）。

8.2 关键 Benchmark 详表

Benchmark	DS-V4-Pro	Claude Opus-4.6	GPT-5.4	Gemini-3.1-Pro	评价
LiveCodeBench	93.5	88.8	—	91.7	SOTA
Codeforces Rating	3206	—	3168	3052	SOTA（人类约第 23）
SWE-Verified	80.6	80.8	—	—	持平
Terminal-Bench 2.0	67.9	—	75.1	—	落后
MRCR 1M	83.5	92.9	—	76.3	不如 Opus 4.6
HMMT 2026 Feb	95.2	—	97.7	—	差距很小
Putnam-2025	120/120	—	—	—	满分！
SimpleQA-Verified	57.9	—	—	75.6	事实知识弱

8.3 长上下文能力：MRCR 8-needle

长上下文 retrieval 能力对应的是 8 根针的 MRCR 测试，从 8K 拉到 1M。

解读：V4-Pro 在 128K 以内几乎没掉点（> 0.9），1M 时降到 0.59 但仍可用； V4-Flash 因为更小，1M 时降到 0.49——但整体 1M 长上下文能力依然在第一梯队。唯一差距：相比 Claude Opus 4.6 在 1M 时的 92.9 还有空间。

8.4 V4-Flash vs V4-Pro vs V3.2

Benchmark	V3.2 Exp	V4-Flash-Max	V4-Pro-Max	Pro 相对 V3.2 提升
LiveCodeBench	~78	91.6	93.5	+15.5
HLE（Humanity's Last Exam）	~22	34.8	37.7	+15.7
MRCR 1M	~70	78.7	83.5	+13.5

V4-Flash（小模型）在多数任务上接近 V4-Pro——说明架构改造（CSA/HCA + mHC + Muon）的收益不是只来自大模型。

8.5 真实工程任务：R&D Coding（论文 Table 8）

DeepSeek 内部真实 R&D 任务（200 道），比公开 benchmark 更能反映"实际可不可用"：

R&D Coding 通过率

Haiku 4.5		13%
Sonnet 4.5		47%
DS-V4-Pro-Max		67%
Opus 4.5		70%
Opus 4.6 Thinking		80%

DS-V4-Pro-Max 稳定超越 Sonnet 4.5，逼近 Opus 4.5，与 Opus 4.6 Thinking 还有差距。这就是为什么 DeepSeek 内部开发者调查中，52% 的人说 V4-Pro 已经可以当默认编程模型。

8.6 评测亮点与短板（诚实清单）

亮点

Putnam-2025 数学证明：120/120 满分
Codeforces Rating 3206，相当于人类第 23 名
LiveCodeBench 93.5，编程竞赛 SOTA
中文写作赢 Gemini-3.1-Pro（62.7% vs 34.1% 胜率）
128K 内长上下文几乎不掉点
Flash 小模型也能跑出接近 Pro 的成绩

短板（论文自己承认）

SWE-Pro / Terminal-Bench 落后闭源前沿模型
MRCR 1M 与 Claude Opus 4.6 还有差距
最难中文写作落后 Claude Opus 4.5
SimpleQA 事实知识弱于 Gemini-3.1-Pro
论文原话："trailing state-of-the-art frontier models by 3-6 months"

9 整体回顾与展望 / Summary

讲完八节，回头看 V4 的设计——它其实是三条主线汇合的产物。

9.1 三条主线归纳

注意力线

MHA
↓ (KV 共享)
MLA
↓ (低秩压缩)
DSA
↓ (动态稀疏)
CSA / HCA

最终结果：KV cache 砍掉 99.7%。

优化器线

SGD
↓ (+ 动量)
Adam
↓ (+ 解耦 wd)
AdamW
↓ (整矩阵视角)
Muon

Newton-Schulz 正交化更新，跳出逐参数视角。

训练稳定性线

纯残差
↓
HC
↓
mHC
+ Anticipatory Routing
+ SwiGLU Clamping

不靠 trick，靠多层稳健性约束叠加。

9.2 V4 的设计哲学：每个数字都是算出来的

CSA 块大小 = 4：4×16 = 64 个 head，刚好对齐一块 H800 SM。
HCA 块大小 = 128：128 token 块对应一次 KV 加载的最佳粒度。
HCA 滑窗 = 128：每个 query 看 128 个邻居，覆盖本地依赖且不超 cache line。
Lightning Indexer top-k = 1024：稀疏率 ≈ 1% 时 attention 误差与 dense 持平。
Muon RMS = 0.18：故意贴近 AdamW 的典型 RMS，复用 lr 调度。
MTP loss = 0.3 → 0.1：训练中段全力学习多 token 预测，衰减期降权避免干扰精调。

V4 几乎没有一个"凭感觉拍的"数字——每个常数都对应一个硬件约束、一个梯度方差边界，或一条经验回路。这是系统工程思维在大模型设计里的胜利。

9.3 局限与未来方向（论文第 6 章）

已知局限

架构变得相对复杂——CSA/HCA + mHC + Muon + OPD，新人上手门槛升高
Anticipatory Routing 和 SwiGLU Clamping 的底层原理仍待研究——经验上有效，理论上还没说清
1M 上下文相比 Claude Opus 4.6 还有差距
事实知识、最难中文写作仍落后顶级闭源模型

未来方向

更优雅的架构蒸馏，把复杂结构简化回小模型
探索更稀疏的 embedding 模块（sparse embedding）
更低延迟的架构与系统技术
多模态能力扩展（V4 仍是纯文本）
将 OPD 推广到更多 specialist 领域

9.4 一个哲学层面的洞察

关于"压缩"的本质 V4 的所有压缩——KV cache 砍 99.7%、attention 稀疏到 1%、optimizer 把奇异值砸平—— 归根到底在做同一件事：
"只沿着流形存路径，不存流形以外的空气。" Transformer 的本质是把信息收敛到高维数据流形上。V4 是这件事的工程注脚—— 它告诉我们：真正重要的不是参数有多少，而是参数有没有用在流形的方向上。

9.5 行业意义

MIT

License 开源

1.6T

总参数 / 32B 激活

$5.2M

估算训练成本

$0.30

API / 百万 token

结语 V4 不是"又一个开源大模型"。它是 DeepSeek 在 MLA / DeepSeekMoE / GRPO / DSA 四年积累的一次集大成。每个组件都不是 V4 才有的发明——但四件事第一次在同一个模型里同时跑通。更重要的是，它用 1/20 的成本做出了 能进第一梯队的开源旗舰，并把 API 价格压到比同级别便宜一个数量级。

这是中国大模型工程能力的一份硬实力证明—— 不是更大、不是更贵，而是更聪明地用每一个 FLOP、每一字节 KV、每一次更新方向。