DeepSeek-V4: 百万 Token 上下文的注意力革命

一份关于《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》的技术分享报告。从 MHA 到 CSA/HCA，把 KV cache 压到 V3.2 的 10%，FLOPs 压到 27%，让 1.6T 参数模型在 1M 上下文上稳跑。

1.6T

V4-Pro 总参数（激活 49B）

上下文窗口

27%

推理 FLOPs（vs V3.2）

10%

KV cache（vs V3.2）

33T

预训练 token

3206

Codeforces Rating（人类第 23）

加载中...