项目主页:
https://github.com/vivoCameraResearch/any-to-bokeh 摘要:
针对视频散景制作常面临操作复杂、效果不自然等问题,难以满足创作者高效出片需求等问题,我们提出 Any-to-Bokeh 一键式视频虚化工具,对应的论文已被 ICLR2026 接收!该工具无需复杂操作无需专业操作即可生成电影感虚化效果。为短视频创作者、影视从业者提供了高效易用的创作工具,也为相关领域科研提供可参考的实践成果,助力 AI 视频编辑技术更贴近实用需求。项目代码与试用指南已公开至 GitHub,诚邀大家体验试用,欢迎 Star 支持并引用。
该工作由vivo BlueImage Lab,浙江大学共同完成。
在 AI 图像编辑领域,虚化效果(Bokeh)的实现早已不是难题——通过扩散模型,我们能轻松模拟专业相机的虚化质感,让普通图片瞬间提升氛围感。但当需求延伸到视频领域,挑战却陡然升级:现有工具要么无法精准控制对焦平面与虚化强度,要么直接套用图片虚化算法,导致视频出现明显的帧间闪烁、边缘过渡生硬等问题,难以满足高质量创作需求。
近日,我们团队发布了题为《Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model》,为视频虚化难题提供了创新性解决方案,已正式被国际机器学习顶会 ICLR2026 接收。我们研发的这一框架,凭借独特的技术设计,实现了 “任意视频输入→高质量虚化输出” 的一步式转换,同时兼顾可控性与时间连贯性。 一、核心优势:解决视频虚化三大痛点
精准可控,效果自定义:
我们突破传统视频编辑工具的局限,支持显式控制对焦平面与虚化强度。无论是想突出画面主体、弱化背景干扰,还是调整虚化强度适配不同场景(如人像特写、风景延时),都能精准实现,满足多样化创作需求。 时间连贯,无闪烁无断层:
针对 “图片虚化扩展至视频” 的核心痛点,我们在框架中引入多平面图像(MPI)表示 —— 通过逐步拓宽的深度采样函数构建 3D 几何结构,为每帧的虚化合成提供统一的几何引导。再结合 Stable Video Diffusion 等预训练模型的强 3D 先验,从根源上解决了帧间闪烁、边缘模糊过渡不自然的问题,让长视频的虚化效果始终连贯统一。 鲁棒性强,细节不丢失:
我们采用渐进式训练策略,不仅提升了模型对不同场景、不同深度分布视频的适配能力(深度鲁棒性),还能在生成虚化效果的同时,精准保留主体细节。无论是动态人物、快速移动的物体,还是纹理复杂的场景,都能实现 “虚化自然、细节清晰” 的平衡。
二、技术逻辑:一步式生成的背后
Any-to-Bokeh 的核心创新在于提出了一种 “MPI 引导的单步视频扩散模型”:
输入任意视频后,模型先通过 MPI 构建场景的 3D 深度结构,明确不同区域的空间层级;
将 MPI 分层信息作为条件,输入单步视频扩散模型,结合预训练模型的 3D 认知,直接生成符合深度逻辑的虚化效果;