DeepSeek-V4 技术深度解读:百万 Token 上下文的注意力革命

1 minute read

Published:

这是一篇带交互可视化的长文。强烈建议直接打开完整交互版

👉 打开《DeepSeek-V4 深度解读》完整交互报告

(包含 10+ 个可交互图表、SVG 演示、滑块和实时计算——文字读懂一半,动手玩一遍才能真正吃透。)

DeepSeek-V4 发布后我花了几天时间通读了 58 页的官方技术报告(PDF)、config.jsoninference/model.py,整理了一份带交互可视化的技术分享。这篇 post 是导读,完整内容请点上面的链接。

一句话概括 V4 做了什么

把 1.6T 参数模型在 1M token 上下文上跑稳,FLOPs 砍到 V3.2 的 27%,KV cache 砍到 10%。

实现这件事靠的是三大架构创新 + 一套基建优化:

  • CSA + HCA 混合注意力:两种 KV cache 压缩策略交替排列,再加滑动窗口兜底
  • mHC 流形约束超连接:让 1.6T 模型训练 32T+ token 不崩
  • Muon 优化器:把权重矩阵当几何对象做正交化更新,99.9% 参数用 Muon
  • 工程层:MegaMoE / FP4 QAT / Anticipatory Routing / On-Disk KV Cache 等 8 个亮点

完整报告涵盖什么

章节内容交互亮点
1. 背景与动机为什么 KV cache 既是显存大户也是 API 账单大户API 价格对比表
2. 注意力演化史MHA → MQA → GQA → MLA → DSA → NSA → CSA/HCA7 张 SVG 配图 + KV 演化对数柱状图
3. CSA + HCA 详解V4 最大的创新,逐组件拆解可拖拽 token 位置看每层 attend 什么 + 50K~1M 上下文 KV breakdown
4. mHC 流形约束双随机矩阵 + Sinkhorn-Knopp滑块对比信号增益 + Sinkhorn-Knopp 单步动画
5. Muon 优化器从 SGD 到几何更新奇异值分布随 NS 迭代演化
6. 基建优化8 个工程亮点tabs 切换 + 通信-计算重叠 SVG
7. 训练 + 评测33T token + 渐进式上下文 + benchmark 对比雷达图 + MRCR 长上下文曲线
8. 总结展望三条主线 + 未来方向

几个让我觉得设计很漂亮的细节

KV cache 不只是技术问题,它直接和钱挂钩。 你看 API 定价表三列价格(命中缓存 / 未命中 / 输出),中间差 10 倍,差的就是要不要从头重算 KV cache。2026 年 3 月 Claude Code 翻车——在系统提示前面塞了”反滥用 token + 反蒸馏假工具”,每轮都不一样,prompt prefix 每轮都变、cache 每轮 miss,用户成本暴涨 10–20 倍。

MLA 的数学技巧(V2 起就用):K 和 V 从来没被显式算出来。”还原 K”的 W_uk 被吸收进 Q 投影,”还原 V”的 W_uv 被吸收进输出投影。推理时这些都是固定权重,零额外开销,全程只有 latent 出场。这是 DeepSeek 能撑起百万上下文的基础。

CSA 重叠 / HCA 不重叠——不是设计偏好,是数学算账。CSA 块只有 4 个 token,块边界被切断代价大(一个完整词组可能被劈开),重叠收益高;HCA 块 128 个 token,块边界代价小,重叠要付的代价(投影维度翻倍)巨大。

Lightning Indexer 全程 FP4——主路径 FP8 不能再砍(CSA 压缩已经有损,再砍内容就没了);Indexer 只需要排序,对精度容忍度高,所以走 FP4。

训练就用稀疏,不是事后套眼镜。 V3.2 DSA 是”一个看惯了高清电视的人,戴个轻便近视眼镜上街”;V4 是”一个从小就近视、从小就戴这副眼镜的人,大脑里世界长什么样就是这副眼镜下的样子”。这是 V4 推理 FLOPs 砍到 27% 的根本原因。

一个哲学层面的洞察

KV cache 能被压掉 99.7% 而效果不掉,不是算法的胜利,是语言本身的低维性质

大模型权重存的是”知识”——世界的地图。KV cache 存的不是地图,是当前这段上下文在地图上走过的路径。路径能被压到 0.3%,是因为自然语言的有效路径本来就是低维的——7168 维的隐藏空间里,大部分维度是 MLP 临时展开的”计算脚手架”,真正的语义坐标集中在几百维子空间里(intrinsic dimension 实测约占隐藏空间个位数百分比)。

V4 所有压缩——MLA 砍维度、Compressor 砍条数、Indexer 选 top-k——都在压路径,没人动地图

完整报告

👉 打开《DeepSeek-V4 深度解读》完整交互报告

报告内容均基于:

如有任何问题或勘误,欢迎反馈。