1 背景与动机 / Why V4?

要理解 V4,得先理解为什么注意力机制走到了今天这一步——以及为什么 KV cache 既是显存大户, 又是你 API 账单上的那一栏 "input - cache miss"。

1.1 推理范式的两条战线

过去两年,大模型的能力提升来自两件事:

两件事都顶着同一个天花板:标准 Attention 是 O(n²) 的。当 n 从 32K 涨到 1M, 注意力的算力消耗增长 1000×,KV cache 增长 32×。这个天花板压制了所有进一步的 scaling。

V4 的核心 motivation:不是再训一个更大的模型,而是从架构层面把"百万 token 上下文"这件事做便宜。 便宜到能进入主流应用、能进入 RL 长 rollout、能让普通用户用 0.30 美元/百万 token 的价格用上。

1.2 KV cache:技术问题,也是账单问题

每个 token 进入 Transformer,每一层都要存一份 K 和一份 V。V4-Pro 有 61 层, 50K 上下文 = 50000 × 61 = 305 万条 KV。每条原始 KV 是 7168 维 BF16(28KB)—— 不压缩的话 50K 上下文要 81.5 GiB。一张 A100 都装不下。

这件事在你的 API 账单上长这样:

模型输入·命中缓存输入·未命中输出
DeepSeek V4-Pro$0.145$1.74$3.48
GPT-5.5$0.5$5.00$30.00
Claude Opus 4.7$0.5$5.00$25.00

单位:美元 / 百万 token。"输入"为什么有两个价格?因为 KV cache 命中与否,决定了服务端要不要从头重算。

实际案例:2026 年 3 月 Claude Code 翻车——在系统提示前面塞了"反滥用 token + 反蒸馏假工具", 每轮都不一样,导致 prompt prefix 每轮都变、cache 每轮 miss,用户成本暴涨 10–20 倍。 KV cache 不只是技术问题,它直接和钱挂钩

1.3 V4 给出的三大架构创新(论文 HuggingFace 主页官方原话)

① 混合注意力 CSA + HCA

两种压缩注意力交替排列 + 滑动窗口兜底 + Lightning Indexer 选 top-k。 注意力 FLOPs 砍到 V3.2 的 27%,KV cache 砍到 10%

② mHC 流形约束超连接

替代普通残差连接,把残差映射约束到双随机矩阵流形上, 让 1.6T 模型训练 32T+ token 不崩

③ Muon 优化器

把权重矩阵当几何对象做正交化更新,比 AdamW 收敛更快、训练更稳。 99.9% 参数用 Muon,只有 embedding/RMSNorm 还用 AdamW。

再加上工程层的 Fine-Grained EP(MegaMoE)、FP4 QAT、Anticipatory Routing、Hash Routing、SwiGLU Clamping、 异构 KV cache 管理、On-Disk KV Cache 等一堆"基建创新",构成了 V4 的完整技术栈。

1.4 全家桶:Pro 和 Flash 不是缩放关系

模型总参数激活参数层数 hidden路由专家激活专家 权重大小
V4-Pro1.6T49B61 71683846 865 GB
V4-Flash284B13B43 40962566 160 GB
V3(参考)671B37B61 71682568

两款都用 FP4(专家)+ FP8(其他)混合精度发布。Flash 不是 Pro 的缩小版,是为低成本推理专门设计的独立架构。