DeepSeek-V4 技术深度解读：百万 Token 上下文的注意力革命

1 minute read

Published: May 26, 2026

这是一篇带交互可视化的长文。强烈建议直接打开完整交互版：
👉 打开《DeepSeek-V4 深度解读》完整交互报告
（包含 10+ 个可交互图表、SVG 演示、滑块和实时计算——文字读懂一半，动手玩一遍才能真正吃透。）

DeepSeek-V4 发布后我花了几天时间通读了 58 页的官方技术报告（PDF）、config.json 和 inference/model.py，整理了一份带交互可视化的技术分享。这篇 post 是导读，完整内容请点上面的链接。

一句话概括 V4 做了什么

把 1.6T 参数模型在 1M token 上下文上跑稳，FLOPs 砍到 V3.2 的 27%，KV cache 砍到 10%。

实现这件事靠的是三大架构创新 + 一套基建优化：

CSA + HCA 混合注意力：两种 KV cache 压缩策略交替排列，再加滑动窗口兜底
mHC 流形约束超连接：让 1.6T 模型训练 32T+ token 不崩
Muon 优化器：把权重矩阵当几何对象做正交化更新，99.9% 参数用 Muon
工程层：MegaMoE / FP4 QAT / Anticipatory Routing / On-Disk KV Cache 等 8 个亮点

完整报告涵盖什么

章节	内容	交互亮点
1. 背景与动机	为什么 KV cache 既是显存大户也是 API 账单大户	API 价格对比表
2. 注意力演化史	MHA → MQA → GQA → MLA → DSA → NSA → CSA/HCA	7 张 SVG 配图 + KV 演化对数柱状图
3. CSA + HCA 详解	V4 最大的创新，逐组件拆解	可拖拽 token 位置看每层 attend 什么 + 50K~1M 上下文 KV breakdown
4. mHC 流形约束	双随机矩阵 + Sinkhorn-Knopp	滑块对比信号增益 + Sinkhorn-Knopp 单步动画
5. Muon 优化器	从 SGD 到几何更新	奇异值分布随 NS 迭代演化
6. 基建优化	8 个工程亮点	tabs 切换 + 通信-计算重叠 SVG
7. 训练 + 评测	33T token + 渐进式上下文 + benchmark 对比	雷达图 + MRCR 长上下文曲线
8. 总结展望	三条主线 + 未来方向	—

几个让我觉得设计很漂亮的细节

KV cache 不只是技术问题，它直接和钱挂钩。 你看 API 定价表三列价格（命中缓存 / 未命中 / 输出），中间差 10 倍，差的就是要不要从头重算 KV cache。2026 年 3 月 Claude Code 翻车——在系统提示前面塞了”反滥用 token + 反蒸馏假工具”，每轮都不一样，prompt prefix 每轮都变、cache 每轮 miss，用户成本暴涨 10–20 倍。

MLA 的数学技巧（V2 起就用）：K 和 V 从来没被显式算出来。”还原 K”的 W_uk 被吸收进 Q 投影，”还原 V”的 W_uv 被吸收进输出投影。推理时这些都是固定权重，零额外开销，全程只有 latent 出场。这是 DeepSeek 能撑起百万上下文的基础。

CSA 重叠 / HCA 不重叠——不是设计偏好，是数学算账。CSA 块只有 4 个 token，块边界被切断代价大（一个完整词组可能被劈开），重叠收益高；HCA 块 128 个 token，块边界代价小，重叠要付的代价（投影维度翻倍）巨大。

Lightning Indexer 全程 FP4——主路径 FP8 不能再砍（CSA 压缩已经有损，再砍内容就没了）；Indexer 只需要排序，对精度容忍度高，所以走 FP4。

训练就用稀疏，不是事后套眼镜。 V3.2 DSA 是”一个看惯了高清电视的人，戴个轻便近视眼镜上街”；V4 是”一个从小就近视、从小就戴这副眼镜的人，大脑里世界长什么样就是这副眼镜下的样子”。这是 V4 推理 FLOPs 砍到 27% 的根本原因。

一个哲学层面的洞察

KV cache 能被压掉 99.7% 而效果不掉，不是算法的胜利，是语言本身的低维性质。

大模型权重存的是”知识”——世界的地图。KV cache 存的不是地图，是当前这段上下文在地图上走过的路径。路径能被压到 0.3%，是因为自然语言的有效路径本来就是低维的——7168 维的隐藏空间里，大部分维度是 MLP 临时展开的”计算脚手架”，真正的语义坐标集中在几百维子空间里（intrinsic dimension 实测约占隐藏空间个位数百分比）。

V4 所有压缩——MLA 砍维度、Compressor 砍条数、Indexer 选 top-k——都在压路径，没人动地图。

完整报告

👉 打开《DeepSeek-V4 深度解读》完整交互报告

报告内容均基于：

如有任何问题或勘误，欢迎反馈。

Share on

Twitter Facebook LinkedIn

DeepSeek-V4 技术深度解读：百万 Token 上下文的注意力革命

一句话概括 V4 做了什么

完整报告涵盖什么

几个让我觉得设计很漂亮的细节

一个哲学层面的洞察

完整报告

Share on

You May Also Enjoy

Blog Post Llm Mllm Posttrain Interview

LLM / MLLM 后训练面试题库（60 题精选）

Diffusion 模型的条件注入演进史：从通道拼接到单流 DiT

Agentic RL 训练全景：环境、信号、分布与系统的协同闭环

图解 Wan2.1 I2V：从一张图到一段视频，模型到底发生了什么