要理解 V4,得先理解为什么注意力机制走到了今天这一步——以及为什么 KV cache 既是显存大户, 又是你 API 账单上的那一栏 "input - cache miss"。
过去两年,大模型的能力提升来自两件事:
两件事都顶着同一个天花板:标准 Attention 是 O(n²) 的。当 n 从 32K 涨到 1M, 注意力的算力消耗增长 1000×,KV cache 增长 32×。这个天花板压制了所有进一步的 scaling。
每个 token 进入 Transformer,每一层都要存一份 K 和一份 V。V4-Pro 有 61 层, 50K 上下文 = 50000 × 61 = 305 万条 KV。每条原始 KV 是 7168 维 BF16(28KB)—— 不压缩的话 50K 上下文要 81.5 GiB。一张 A100 都装不下。
这件事在你的 API 账单上长这样:
| 模型 | 输入·命中缓存 | 输入·未命中 | 输出 |
|---|---|---|---|
| DeepSeek V4-Pro | $0.145 | $1.74 | $3.48 |
| GPT-5.5 | $0.5 | $5.00 | $30.00 |
| Claude Opus 4.7 | $0.5 | $5.00 | $25.00 |
单位:美元 / 百万 token。"输入"为什么有两个价格?因为 KV cache 命中与否,决定了服务端要不要从头重算。
两种压缩注意力交替排列 + 滑动窗口兜底 + Lightning Indexer 选 top-k。 注意力 FLOPs 砍到 V3.2 的 27%,KV cache 砍到 10%。
替代普通残差连接,把残差映射约束到双随机矩阵流形上, 让 1.6T 模型训练 32T+ token 不崩。
把权重矩阵当几何对象做正交化更新,比 AdamW 收敛更快、训练更稳。 99.9% 参数用 Muon,只有 embedding/RMSNorm 还用 AdamW。
再加上工程层的 Fine-Grained EP(MegaMoE)、FP4 QAT、Anticipatory Routing、Hash Routing、SwiGLU Clamping、 异构 KV cache 管理、On-Disk KV Cache 等一堆"基建创新",构成了 V4 的完整技术栈。
| 模型 | 总参数 | 激活参数 | 层数 | hidden | 路由专家 | 激活专家 | 权重大小 |
|---|---|---|---|---|---|---|---|
| V4-Pro | 1.6T | 49B | 61 | 7168 | 384 | 6 | 865 GB |
| V4-Flash | 284B | 13B | 43 | 4096 | 256 | 6 | 160 GB |
| V3(参考) | 671B | 37B | 61 | 7168 | 256 | 8 | — |
两款都用 FP4(专家)+ FP8(其他)混合精度发布。Flash 不是 Pro 的缩小版,是为低成本推理专门设计的独立架构。