图解 Wan2.1 I2V:从一张图到一段视频,模型到底发生了什么
Published:
最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。
Published:
最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。
Published:
This page provides some resource and my own experience for building a personal website.
Published:
过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。
Published:
大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。
Published:
Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的,但真正上线时,我们更关心的往往不是似然,而是:
Published:
Diffusion 模型发展到今天,CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑:
Published:
最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。
Published:
本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。
Published:
Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的,但真正上线时,我们更关心的往往不是似然,而是:
Published:
Diffusion 模型发展到今天,CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑:
Published:
Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的,但真正上线时,我们更关心的往往不是似然,而是:
Published:
Diffusion 模型发展到今天,CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑:
Published:
最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。
Published:
本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。
Published:
过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。
Published:
大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。
Published:
过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。
Published:
大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。
Published:
本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。
Published:
大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。
Published:
本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。
Published:
Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的,但真正上线时,我们更关心的往往不是似然,而是:
Published:
Diffusion 模型发展到今天,CFG 几乎已经成了文本生成图像系统里的“默认组件”。
但很多人第一次看到它时都会困惑:
Published:
最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。
Published:
过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。
Published:
过去一年,各家大模型公司公开的技术报告透出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的 Agentic RL 已经从”单轮文本优化”转向了”在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习”。
Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2]/K2.5[3] 又把 agentic 数据合成、多模态 RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开;MiniMax 把另一个事实讲得更彻底:当 rollout 时长从秒级扩到小时级,训练瓶颈就不再是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡;GLM 则强调分阶段 RL:Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习与能力保持。
Agentic RL 的核心问题,已经从”怎么更新参数”扩展为”怎么在真实 Agent 环境里持续制造可用的学习信号,并用在线交互的轨迹数据驱动优化“。
Published:
Diffusion 模型最初是按“去噪 MSE / 似然近似”来训练的,但真正上线时,我们更关心的往往不是似然,而是:
Published:
本文从零开始,带你理解 LLM 推理加速的核心思路,读完之后你会明白:大模型为什么慢、投机解码如何加速、为什么加速后输出质量完全不变,以及 DDTree 这篇 2026 年的新论文究竟做了什么创新。
Published:
大模型算法岗面试中,手撕代码是几乎绕不过去的一环。面试官会盯着你从零实现 Attention、MHA、GQA、LayerNorm、RMSNorm、SafeSoftmax、Cross-Entropy 等模块,既考察你对原理的理解,也考察你是否能在紧张的环境下把数值稳定性、维度对齐、broadcasting 这些细节处理干净。
这篇文章把这些高频手撕题系统梳理一遍:每一节都给出核心原理 → 数学公式 → 从零手写的 PyTorch 实现 → 面试容易追问的点,读完之后这一类题你应该都能在白板上 10 分钟内写出来。
Published:
最近视频生成模型卷得很快,Wan2.1 是阿里 Wan 团队开源的那一套。它最常用的场景之一就是 I2V(Image-to-Video):给一张参考图加一句文字 prompt,模型给你生成一段几秒的视频,首帧基本还是那张图,后续的镜头就按你写的文字去演。