一份关于《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》的技术分享报告。 从 MHA 到 CSA/HCA,把 KV cache 压到 V3.2 的 10%,FLOPs 压到 27%,让 1.6T 参数模型在 1M 上下文上稳跑。
加载中...