接近 100% 无损重建:开源文生视频领域的新突破
接近100%无损重建:开源文生视频领域的新突破
一、引言
在Sora出现之后,文/图生视频领域发展迅速,但开源文生视频模型效果与闭源模型存在差距,且开源模型进展缓慢。香港科技大学提出的一种新颖强大的视频自动编码器VAE有望改变这一局面。
二、视频VAE背景简介
潜在视频扩散模型(LVDM)已成为流行框架,成功应用于多个文生视频模型。视频VAE作为其关键组成部分备受关注,它可降低训练成本并提高生成视频质量。然而,早期采用图像VAE逐帧压缩视频存在时间闪烁、信息冗余问题,后续研究虽在改进,但当前视频VAE仍存在运动重影、模糊、卡顿等性能问题。
三、视频VAE算法简介
- 创新点
- 提出时间感知的空间压缩,更好编码和解码空间信息。
- 集成轻量级运动压缩模型进行时间压缩。
- 利用文生视频数据集中的文本信息,纳入文本指导,提高重建质量。
- 对图像和视频联合训练,提高模型通用性。
- 效果
- 重建算法重建出的视频肉眼难寻不一致之处,接近100%相似。
四、视频VAE算法应用场景
该算法在真实输入视频上重建效果出色,精准重建原始视频信息,为生成高质量视频奠定基础。
五、视频VAE算法整体流程
- 建模方式
- 同步建模:将预训练的2D空间VAE膨胀为3D VAE。
- 顺序建模:先压缩空间维度,再压缩时间信息。
- 新的VAE结合两者优点,受益于跨模态文本信息,实现更好视频重建质量。
六、视频VAE算法实现细节
- 时间感知的空间自编码器细节
- 将SD VAE的2D卷积扩展为3D卷积并附加时间卷积形成STBlock3D。
- 注入跨注意层,按输入块、下采样块、中间块、中间块、上采样块、输出块方式重建视频。
- 跨模态学习效果
- 纹理信息提高恢复视频细节能力,注意力图与输入文本提示对应。
- 图像与视频联合训练效果
- 联合训练进一步提高视频重建质量,在细节方面与原图更符合。
七、视频VAE环境搭建与运行
- 搭建算法运行环境
- 克隆代码到本地:
git clone git@github.com:yzxing87/vae.git
并进入目录。 - 创建虚拟环境:
conda create --name vae python=3.10 -y
并激活。 - 安装三方依赖库:
pip install -r requirements.txt
。
- 克隆代码到本地:
- 运行样例Demo
- 步骤1:根据需要下载预训练模型(https://github.com/VideoVerses/VideoVAEPlus)。
- 步骤2:构建视频或图片测试数据,分别在
examples/videos/
和examples/images/
下按格式构建。 - 步骤3:运行视频或者图片重建,执行
bash scripts/run_inference_video.sh
或bash scripts/run_inference_image.sh
。
八、视频VAE算法性能评估
- 主观效果性能评估
- 与多个SOTA基线方法(Open Sora Plan、Open Sora等)比较,该方法显著改善运动恢复,减少重影伪影。16通道模型进一步提高细节重建精度。
- 客观效果性能评估
- 在不同采样因子、通道和测试数据集上,该算法得分较高,证明其有效性。
香港科技大学提出的视频VAE在开源文生视频领域取得重大进展,其算法在多个方面表现出色,有望推动开源文生视频的发展。