Posts by Tags

Binary Tree

tips

Algorithm

ControlNet

Diffusion 模型的条件注入演进史：从通道拼接到单流 DiT

9 minute read

Published: May 09, 2026

如果你看过 Stable Diffusion、ControlNet、IP-Adapter，又听说过最近的 Qwen-Image 和 Z-Image，可能会有一个共同的疑问：

DiT

Diffusion 模型的条件注入演进史：从通道拼接到单流 DiT

9 minute read

Published: May 09, 2026

如果你看过 Stable Diffusion、ControlNet、IP-Adapter，又听说过最近的 Qwen-Image 和 Z-Image，可能会有一个共同的疑问：

图解 Wan2.1 I2V：从一张图到一段视频，模型到底发生了什么

9 minute read

Published: April 24, 2026

最近视频生成模型卷得很快，Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V（Image-to-Video）：给一张参考图加一句文字 prompt，模型给你生成一段几秒的视频，首帧基本还是那张图，后续的镜头就按你写的文字去演。

IP-Adapter

Diffusion 模型的条件注入演进史：从通道拼接到单流 DiT

9 minute read

Published: May 09, 2026

如果你看过 Stable Diffusion、ControlNet、IP-Adapter，又听说过最近的 Qwen-Image 和 Z-Image，可能会有一个共同的疑问：

Resources

How to Build a Personal Website

1 minute read

Published: May 15, 2020

This page provides some resource and my own experience for building a personal website.

agentic

Agentic RL 训练全景：环境、信号、分布与系统的协同闭环

10 minute read

Published: April 28, 2026

过去一年，各家大模型公司公开的技术报告透出的最重要信号，不是又出现了一个更好的 PPO/GRPO 变体，而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前；Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开；MiniMax 把另一个事实讲得更彻底：当 rollout 时长从秒级扩到小时级，训练瓶颈就不再是 loss design，而是吞吐、稳定性与 agent 灵活性之间的三难权衡；GLM 则强调分阶段 RL：Reasoning RL、Agentic RL、General RL 不是混在一起一次训完，而是通过顺序化 pipeline 逐步推进，并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题，已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号，并用在线交互的轨迹数据驱动优化“。

attention

大模型面试手撕题全攻略：Attention、Transformer、归一化与损失函数

13 minute read

Published: April 22, 2026

大模型算法岗面试中，手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块，既考察你对原理的理解，也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍：每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点，读完之后这一类题你应该都能在白板上 10 分钟内写出来。

computer vision

从 DDPO 到 Flow-GRPO：一文看懂 Diffusion 模型的强化学习过程与发展脉络

7 minute read

Published: April 20, 2026

Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的，但真正上线时，我们更关心的往往不是似然，而是：

从 Classifier Guidance 到 Classifier-Free Guidance：一文讲清 Diffusion 里的 CFG

8 minute read

Published: April 20, 2026

Diffusion 模型发展到今天，CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑：

diffusion

Diffusion 模型的条件注入演进史：从通道拼接到单流 DiT

9 minute read

Published: May 09, 2026

如果你看过 Stable Diffusion、ControlNet、IP-Adapter，又听说过最近的 Qwen-Image 和 Z-Image，可能会有一个共同的疑问：

图解 Wan2.1 I2V：从一张图到一段视频，模型到底发生了什么

9 minute read

Published: April 24, 2026

让大模型快 8 倍：从投机解码到 DDTree 的完整原理

7 minute read

Published: April 20, 2026

本文从零开始，带你理解 LLM 推理加速的核心思路，读完之后你会明白：大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变，以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

从 DDPO 到 Flow-GRPO：一文看懂 Diffusion 模型的强化学习过程与发展脉络

7 minute read

Published: April 20, 2026

Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的，但真正上线时，我们更关心的往往不是似然，而是：

从 Classifier Guidance 到 Classifier-Free Guidance：一文讲清 Diffusion 里的 CFG

8 minute read

Published: April 20, 2026

Diffusion 模型发展到今天，CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑：

generative model

Diffusion 模型的条件注入演进史：从通道拼接到单流 DiT

9 minute read

Published: May 09, 2026

如果你看过 Stable Diffusion、ControlNet、IP-Adapter，又听说过最近的 Qwen-Image 和 Z-Image，可能会有一个共同的疑问：

从 DDPO 到 Flow-GRPO：一文看懂 Diffusion 模型的强化学习过程与发展脉络

7 minute read

Published: April 20, 2026

Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的，但真正上线时，我们更关心的往往不是似然，而是：

从 Classifier Guidance 到 Classifier-Free Guidance：一文讲清 Diffusion 里的 CFG

8 minute read

Published: April 20, 2026

Diffusion 模型发展到今天，CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑：

image-to-video

图解 Wan2.1 I2V：从一张图到一段视频，模型到底发生了什么

9 minute read

Published: April 24, 2026

inference acceleration

让大模型快 8 倍：从投机解码到 DDTree 的完整原理

7 minute read

Published: April 20, 2026

本文从零开始，带你理解 LLM 推理加速的核心思路，读完之后你会明白：大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变，以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

infrastructure

Agentic RL 训练全景：环境、信号、分布与系统的协同闭环

10 minute read

Published: April 28, 2026

过去一年，各家大模型公司公开的技术报告透出的最重要信号，不是又出现了一个更好的 PPO/GRPO 变体，而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前；Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开；MiniMax 把另一个事实讲得更彻底：当 rollout 时长从秒级扩到小时级，训练瓶颈就不再是 loss design，而是吞吐、稳定性与 agent 灵活性之间的三难权衡；GLM 则强调分阶段 RL：Reasoning RL、Agentic RL、General RL 不是混在一起一次训完，而是通过顺序化 pipeline 逐步推进，并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题，已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号，并用在线交互的轨迹数据驱动优化“。

interview

大模型面试手撕题全攻略：Attention、Transformer、归一化与损失函数

13 minute read

Published: April 22, 2026

大模型算法岗面试中，手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块，既考察你对原理的理解，也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍：每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点，读完之后这一类题你应该都能在白板上 10 分钟内写出来。

llm

Agentic RL 训练全景：环境、信号、分布与系统的协同闭环

10 minute read

Published: April 28, 2026

过去一年，各家大模型公司公开的技术报告透出的最重要信号，不是又出现了一个更好的 PPO/GRPO 变体，而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前；Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开；MiniMax 把另一个事实讲得更彻底：当 rollout 时长从秒级扩到小时级，训练瓶颈就不再是 loss design，而是吞吐、稳定性与 agent 灵活性之间的三难权衡；GLM 则强调分阶段 RL：Reasoning RL、Agentic RL、General RL 不是混在一起一次训完，而是通过顺序化 pipeline 逐步推进，并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题，已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号，并用在线交互的轨迹数据驱动优化“。

大模型面试手撕题全攻略：Attention、Transformer、归一化与损失函数

13 minute read

Published: April 22, 2026

大模型算法岗面试中，手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块，既考察你对原理的理解，也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍：每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点，读完之后这一类题你应该都能在白板上 10 分钟内写出来。

让大模型快 8 倍：从投机解码到 DDTree 的完整原理

7 minute read

Published: April 20, 2026

本文从零开始，带你理解 LLM 推理加速的核心思路，读完之后你会明白：大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变，以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

machine learning

大模型面试手撕题全攻略：Attention、Transformer、归一化与损失函数

13 minute read

Published: April 22, 2026

大模型算法岗面试中，手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块，既考察你对原理的理解，也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍：每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点，读完之后这一类题你应该都能在白板上 10 分钟内写出来。

让大模型快 8 倍：从投机解码到 DDTree 的完整原理

7 minute read

Published: April 20, 2026

本文从零开始，带你理解 LLM 推理加速的核心思路，读完之后你会明白：大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变，以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

从 DDPO 到 Flow-GRPO：一文看懂 Diffusion 模型的强化学习过程与发展脉络

7 minute read

Published: April 20, 2026

Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的，但真正上线时，我们更关心的往往不是似然，而是：

从 Classifier Guidance 到 Classifier-Free Guidance：一文讲清 Diffusion 里的 CFG

8 minute read

Published: April 20, 2026

Diffusion 模型发展到今天，CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑：

multimodal

Diffusion 模型的条件注入演进史：从通道拼接到单流 DiT

9 minute read

Published: May 09, 2026

如果你看过 Stable Diffusion、ControlNet、IP-Adapter，又听说过最近的 Qwen-Image 和 Z-Image，可能会有一个共同的疑问：

图解 Wan2.1 I2V：从一张图到一段视频，模型到底发生了什么

9 minute read

Published: April 24, 2026

post-training

Agentic RL 训练全景：环境、信号、分布与系统的协同闭环

10 minute read

Published: April 28, 2026

过去一年，各家大模型公司公开的技术报告透出的最重要信号，不是又出现了一个更好的 PPO/GRPO 变体，而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前；Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开；MiniMax 把另一个事实讲得更彻底：当 rollout 时长从秒级扩到小时级，训练瓶颈就不再是 loss design，而是吞吐、稳定性与 agent 灵活性之间的三难权衡；GLM 则强调分阶段 RL：Reasoning RL、Agentic RL、General RL 不是混在一起一次训完，而是通过顺序化 pipeline 逐步推进，并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题，已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号，并用在线交互的轨迹数据驱动优化“。

python

reinforcement learning

Agentic RL 训练全景：环境、信号、分布与系统的协同闭环

10 minute read

Published: April 28, 2026

过去一年，各家大模型公司公开的技术报告透出的最重要信号，不是又出现了一个更好的 PPO/GRPO 变体，而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前；Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开；MiniMax 把另一个事实讲得更彻底：当 rollout 时长从秒级扩到小时级，训练瓶颈就不再是 loss design，而是吞吐、稳定性与 agent 灵活性之间的三难权衡；GLM 则强调分阶段 RL：Reasoning RL、Agentic RL、General RL 不是混在一起一次训完，而是通过顺序化 pipeline 逐步推进，并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题，已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号，并用在线交互的轨迹数据驱动优化“。

从 DDPO 到 Flow-GRPO：一文看懂 Diffusion 模型的强化学习过程与发展脉络

7 minute read

Published: April 20, 2026

Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的，但真正上线时，我们更关心的往往不是似然，而是：

speculative decoding

让大模型快 8 倍：从投机解码到 DDTree 的完整原理

7 minute read

Published: April 20, 2026

本文从零开始，带你理解 LLM 推理加速的核心思路，读完之后你会明白：大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变，以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。

transformer

大模型面试手撕题全攻略：Attention、Transformer、归一化与损失函数

13 minute read

Published: April 22, 2026

大模型算法岗面试中，手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块，既考察你对原理的理解，也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍：每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点，读完之后这一类题你应该都能在白板上 10 分钟内写出来。

video generation

图解 Wan2.1 I2V：从一张图到一段视频，模型到底发生了什么

9 minute read

Published: April 24, 2026

李勇志 (Yongzhi Li)

Posts by Tags

Binary Tree

tips

Algorithm

ControlNet

DiT

IP-Adapter

Resources

agentic

attention

computer vision

diffusion

generative model

image-to-video

inference acceleration

infrastructure

interview

llm

machine learning

multimodal

post-training

python

reinforcement learning

speculative decoding

transformer

video generation