接近 100% 无损重建:开源文生视频领域的新突破

接近100%无损重建:开源文生视频领域的新突破

一、引言

在Sora出现之后,文/图生视频领域发展迅速,但开源文生视频模型效果与闭源模型存在差距,且开源模型进展缓慢。香港科技大学提出的一种新颖强大的视频自动编码器VAE有望改变这一局面。

二、视频VAE背景简介

潜在视频扩散模型(LVDM)已成为流行框架,成功应用于多个文生视频模型。视频VAE作为其关键组成部分备受关注,它可降低训练成本并提高生成视频质量。然而,早期采用图像VAE逐帧压缩视频存在时间闪烁、信息冗余问题,后续研究虽在改进,但当前视频VAE仍存在运动重影、模糊、卡顿等性能问题。

三、视频VAE算法简介

  1. 创新点
    • 提出时间感知的空间压缩,更好编码和解码空间信息。
    • 集成轻量级运动压缩模型进行时间压缩。
    • 利用文生视频数据集中的文本信息,纳入文本指导,提高重建质量。
    • 对图像和视频联合训练,提高模型通用性。
  2. 效果
    • 重建算法重建出的视频肉眼难寻不一致之处,接近100%相似。

四、视频VAE算法应用场景

该算法在真实输入视频上重建效果出色,精准重建原始视频信息,为生成高质量视频奠定基础。

五、视频VAE算法整体流程

  1. 建模方式
    • 同步建模:将预训练的2D空间VAE膨胀为3D VAE。
    • 顺序建模:先压缩空间维度,再压缩时间信息。
    • 新的VAE结合两者优点,受益于跨模态文本信息,实现更好视频重建质量。

六、视频VAE算法实现细节

  1. 时间感知的空间自编码器细节
    • 将SD VAE的2D卷积扩展为3D卷积并附加时间卷积形成STBlock3D。
    • 注入跨注意层,按输入块、下采样块、中间块、中间块、上采样块、输出块方式重建视频。
  2. 跨模态学习效果
    • 纹理信息提高恢复视频细节能力,注意力图与输入文本提示对应。
  3. 图像与视频联合训练效果
    • 联合训练进一步提高视频重建质量,在细节方面与原图更符合。

七、视频VAE环境搭建与运行

  1. 搭建算法运行环境
    • 克隆代码到本地:git clone git@github.com:yzxing87/vae.git并进入目录。
    • 创建虚拟环境:conda create --name vae python=3.10 -y并激活。
    • 安装三方依赖库:pip install -r requirements.txt
  2. 运行样例Demo
    • 步骤1:根据需要下载预训练模型(https://github.com/VideoVerses/VideoVAEPlus)。
    • 步骤2:构建视频或图片测试数据,分别在examples/videos/examples/images/下按格式构建。
    • 步骤3:运行视频或者图片重建,执行bash scripts/run_inference_video.shbash scripts/run_inference_image.sh

八、视频VAE算法性能评估

  1. 主观效果性能评估
    • 与多个SOTA基线方法(Open Sora Plan、Open Sora等)比较,该方法显著改善运动恢复,减少重影伪影。16通道模型进一步提高细节重建精度。
  2. 客观效果性能评估
    • 在不同采样因子、通道和测试数据集上,该算法得分较高,证明其有效性。

香港科技大学提出的视频VAE在开源文生视频领域取得重大进展,其算法在多个方面表现出色,有望推动开源文生视频的发展。