DeepSeek-V4: 百万 Token 上下文的注意力革命

一份关于《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》的技术分享报告。 从 MHA 到 CSA/HCA,把 KV cache 压到 V3.2 的 10%,FLOPs 压到 27%,让 1.6T 参数模型在 1M 上下文上稳跑。

1.6T
V4-Pro 总参数(激活 49B)
1M
上下文窗口
27%
推理 FLOPs(vs V3.2)
10%
KV cache(vs V3.2)
33T
预训练 token
3206
Codeforces Rating(人类第 23)

加载中...