1 背景与动机 / Why V4?

要理解 V4，得先理解为什么注意力机制走到了今天这一步——以及为什么 KV cache 既是显存大户，又是你 API 账单上的那一栏 "input - cache miss"。

1.1 推理范式的两条战线

过去两年，大模型的能力提升来自两件事：

Reasoning Models（OpenAI o1, DeepSeek-R1）—— 用 test-time scaling 换推理深度，token 越生成越多。
Agentic Workflows —— 长任务、多文档、跨会话，上下文越来越长。

两件事都顶着同一个天花板：标准 Attention 是 O(n²) 的。当 n 从 32K 涨到 1M，注意力的算力消耗增长 1000×，KV cache 增长 32×。这个天花板压制了所有进一步的 scaling。

V4 的核心 motivation：不是再训一个更大的模型，而是从架构层面把"百万 token 上下文"这件事做便宜。便宜到能进入主流应用、能进入 RL 长 rollout、能让普通用户用 0.30 美元/百万 token 的价格用上。

1.2 KV cache：技术问题，也是账单问题

每个 token 进入 Transformer，每一层都要存一份 K 和一份 V。V4-Pro 有 61 层， 50K 上下文 = 50000 × 61 = 305 万条 KV。每条原始 KV 是 7168 维 BF16（28KB）—— 不压缩的话 50K 上下文要 81.5 GiB。一张 A100 都装不下。

这件事在你的 API 账单上长这样：

模型	输入·命中缓存	输入·未命中	输出
DeepSeek V4-Pro	$0.145	$1.74	$3.48
GPT-5.5	$0.5	$5.00	$30.00
Claude Opus 4.7	$0.5	$5.00	$25.00

单位：美元 / 百万 token。"输入"为什么有两个价格？因为 KV cache 命中与否，决定了服务端要不要从头重算。

实际案例：2026 年 3 月 Claude Code 翻车——在系统提示前面塞了"反滥用 token + 反蒸馏假工具"，每轮都不一样，导致 prompt prefix 每轮都变、cache 每轮 miss，用户成本暴涨 10–20 倍。 KV cache 不只是技术问题，它直接和钱挂钩。

1.3 V4 给出的三大架构创新（论文 HuggingFace 主页官方原话）

① 混合注意力 CSA + HCA

两种压缩注意力交替排列 + 滑动窗口兜底 + Lightning Indexer 选 top-k。注意力 FLOPs 砍到 V3.2 的 27%，KV cache 砍到 10%。

② mHC 流形约束超连接

替代普通残差连接，把残差映射约束到双随机矩阵流形上，让 1.6T 模型训练 32T+ token 不崩。

③ Muon 优化器

把权重矩阵当几何对象做正交化更新，比 AdamW 收敛更快、训练更稳。 99.9% 参数用 Muon，只有 embedding/RMSNorm 还用 AdamW。

再加上工程层的 Fine-Grained EP（MegaMoE）、FP4 QAT、Anticipatory Routing、Hash Routing、SwiGLU Clamping、异构 KV cache 管理、On-Disk KV Cache 等一堆"基建创新"，构成了 V4 的完整技术栈。

1.4 全家桶：Pro 和 Flash 不是缩放关系

模型	总参数	激活参数	层数	hidden	路由专家	激活专家	权重大小
V4-Pro	1.6T	49B	61	7168	384	6	865 GB
V4-Flash	284B	13B	43	4096	256	6	160 GB
V3（参考）	671B	37B	61	7168	256	8	—

两款都用 FP4（专家）+ FP8（其他）混合精度发布。Flash 不是 Pro 的缩小版，是为低成本推理专门设计的独立架构。