DeepSeek-V4 技术深度解读:百万 Token 上下文的注意力革命
Published:
这是一篇带交互可视化的长文。强烈建议直接打开完整交互版:
(包含 10+ 个可交互图表、SVG 演示、滑块和实时计算——文字读懂一半,动手玩一遍才能真正吃透。)
DeepSeek-V4 发布后我花了几天时间通读了 58 页的官方技术报告(PDF)、config.json 和 inference/model.py,整理了一份带交互可视化的技术分享。这篇 post 是导读,完整内容请点上面的链接。
一句话概括 V4 做了什么
把 1.6T 参数模型在 1M token 上下文上跑稳,FLOPs 砍到 V3.2 的 27%,KV cache 砍到 10%。
实现这件事靠的是三大架构创新 + 一套基建优化:
- CSA + HCA 混合注意力:两种 KV cache 压缩策略交替排列,再加滑动窗口兜底
- mHC 流形约束超连接:让 1.6T 模型训练 32T+ token 不崩
- Muon 优化器:把权重矩阵当几何对象做正交化更新,99.9% 参数用 Muon
- 工程层:MegaMoE / FP4 QAT / Anticipatory Routing / On-Disk KV Cache 等 8 个亮点
完整报告涵盖什么
| 章节 | 内容 | 交互亮点 |
|---|---|---|
| 1. 背景与动机 | 为什么 KV cache 既是显存大户也是 API 账单大户 | API 价格对比表 |
| 2. 注意力演化史 | MHA → MQA → GQA → MLA → DSA → NSA → CSA/HCA | 7 张 SVG 配图 + KV 演化对数柱状图 |
| 3. CSA + HCA 详解 | V4 最大的创新,逐组件拆解 | 可拖拽 token 位置看每层 attend 什么 + 50K~1M 上下文 KV breakdown |
| 4. mHC 流形约束 | 双随机矩阵 + Sinkhorn-Knopp | 滑块对比信号增益 + Sinkhorn-Knopp 单步动画 |
| 5. Muon 优化器 | 从 SGD 到几何更新 | 奇异值分布随 NS 迭代演化 |
| 6. 基建优化 | 8 个工程亮点 | tabs 切换 + 通信-计算重叠 SVG |
| 7. 训练 + 评测 | 33T token + 渐进式上下文 + benchmark 对比 | 雷达图 + MRCR 长上下文曲线 |
| 8. 总结展望 | 三条主线 + 未来方向 | — |
几个让我觉得设计很漂亮的细节
KV cache 不只是技术问题,它直接和钱挂钩。 你看 API 定价表三列价格(命中缓存 / 未命中 / 输出),中间差 10 倍,差的就是要不要从头重算 KV cache。2026 年 3 月 Claude Code 翻车——在系统提示前面塞了”反滥用 token + 反蒸馏假工具”,每轮都不一样,prompt prefix 每轮都变、cache 每轮 miss,用户成本暴涨 10–20 倍。
MLA 的数学技巧(V2 起就用):K 和 V 从来没被显式算出来。”还原 K”的 W_uk 被吸收进 Q 投影,”还原 V”的 W_uv 被吸收进输出投影。推理时这些都是固定权重,零额外开销,全程只有 latent 出场。这是 DeepSeek 能撑起百万上下文的基础。
CSA 重叠 / HCA 不重叠——不是设计偏好,是数学算账。CSA 块只有 4 个 token,块边界被切断代价大(一个完整词组可能被劈开),重叠收益高;HCA 块 128 个 token,块边界代价小,重叠要付的代价(投影维度翻倍)巨大。
Lightning Indexer 全程 FP4——主路径 FP8 不能再砍(CSA 压缩已经有损,再砍内容就没了);Indexer 只需要排序,对精度容忍度高,所以走 FP4。
训练就用稀疏,不是事后套眼镜。 V3.2 DSA 是”一个看惯了高清电视的人,戴个轻便近视眼镜上街”;V4 是”一个从小就近视、从小就戴这副眼镜的人,大脑里世界长什么样就是这副眼镜下的样子”。这是 V4 推理 FLOPs 砍到 27% 的根本原因。
一个哲学层面的洞察
KV cache 能被压掉 99.7% 而效果不掉,不是算法的胜利,是语言本身的低维性质。
大模型权重存的是”知识”——世界的地图。KV cache 存的不是地图,是当前这段上下文在地图上走过的路径。路径能被压到 0.3%,是因为自然语言的有效路径本来就是低维的——7168 维的隐藏空间里,大部分维度是 MLP 临时展开的”计算脚手架”,真正的语义坐标集中在几百维子空间里(intrinsic dimension 实测约占隐藏空间个位数百分比)。
V4 所有压缩——MLA 砍维度、Compressor 砍条数、Indexer 选 top-k——都在压路径,没人动地图。
完整报告
报告内容均基于:
- DeepSeek-V4 官方技术报告(58 页 PDF)
- DeepSeek-V4-Pro config.json
- DeepSeek-V4-Pro inference/model.py
- 以及 NSA、MLA、Muon 等历代相关论文
如有任何问题或勘误,欢迎反馈。