Posts by Tags

Binary Tree

tips

Algorithm

DiT

图解 Wan2.1 I2V:从一张图到一段视频,模型到底发生了什么

9 minute read

Published:

最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。

Resources

agentic

Agentic RL 训练全景:环境、信号、分布与系统的协同闭环

10 minute read

Published:

过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”

Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。

Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。

attention

大模型面试手撕题全攻略:Attention、Transformer、归一化与损失函数

13 minute read

Published:

大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。

这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。

computer vision

diffusion

图解 Wan2.1 I2V:从一张图到一段视频,模型到底发生了什么

9 minute read

Published:

最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。

让大模型快 8 倍:从投机解码到 DDTree 的完整原理

7 minute read

Published:

本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

generative model

image-to-video

图解 Wan2.1 I2V:从一张图到一段视频,模型到底发生了什么

9 minute read

Published:

最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。

inference acceleration

让大模型快 8 倍:从投机解码到 DDTree 的完整原理

7 minute read

Published:

本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

infrastructure

Agentic RL 训练全景:环境、信号、分布与系统的协同闭环

10 minute read

Published:

过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”

Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。

Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。

interview

大模型面试手撕题全攻略:Attention、Transformer、归一化与损失函数

13 minute read

Published:

大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。

这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。

llm

Agentic RL 训练全景:环境、信号、分布与系统的协同闭环

10 minute read

Published:

过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”

Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。

Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。

大模型面试手撕题全攻略:Attention、Transformer、归一化与损失函数

13 minute read

Published:

大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。

这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。

让大模型快 8 倍:从投机解码到 DDTree 的完整原理

7 minute read

Published:

本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

machine learning

大模型面试手撕题全攻略:Attention、Transformer、归一化与损失函数

13 minute read

Published:

大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。

这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。

让大模型快 8 倍:从投机解码到 DDTree 的完整原理

7 minute read

Published:

本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

multimodal

图解 Wan2.1 I2V:从一张图到一段视频,模型到底发生了什么

9 minute read

Published:

最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。

post-training

Agentic RL 训练全景:环境、信号、分布与系统的协同闭环

10 minute read

Published:

过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”

Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。

Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。

python

reinforcement learning

Agentic RL 训练全景:环境、信号、分布与系统的协同闭环

10 minute read

Published:

过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”

Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。

Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。

speculative decoding

让大模型快 8 倍:从投机解码到 DDTree 的完整原理

7 minute read

Published:

本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

transformer

大模型面试手撕题全攻略:Attention、Transformer、归一化与损失函数

13 minute read

Published:

大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。

这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。

video generation

图解 Wan2.1 I2V:从一张图到一段视频,模型到底发生了什么

9 minute read

Published:

最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。