接近 100% 无损重建：开源文生视频领域的新突破

发表于 2024-12-27 分类于技术分享， AI ，视频生成

接近100%无损重建：开源文生视频领域的新突破

一、引言

在Sora出现之后，文/图生视频领域发展迅速，但开源文生视频模型效果与闭源模型存在差距，且开源模型进展缓慢。香港科技大学提出的一种新颖强大的视频自动编码器VAE有望改变这一局面。

二、视频VAE背景简介

潜在视频扩散模型（LVDM）已成为流行框架，成功应用于多个文生视频模型。视频VAE作为其关键组成部分备受关注，它可降低训练成本并提高生成视频质量。然而，早期采用图像VAE逐帧压缩视频存在时间闪烁、信息冗余问题，后续研究虽在改进，但当前视频VAE仍存在运动重影、模糊、卡顿等性能问题。

三、视频VAE算法简介

创新点
- 提出时间感知的空间压缩，更好编码和解码空间信息。
- 集成轻量级运动压缩模型进行时间压缩。
- 利用文生视频数据集中的文本信息，纳入文本指导，提高重建质量。
- 对图像和视频联合训练，提高模型通用性。
效果
- 重建算法重建出的视频肉眼难寻不一致之处，接近100%相似。

四、视频VAE算法应用场景

该算法在真实输入视频上重建效果出色，精准重建原始视频信息，为生成高质量视频奠定基础。

五、视频VAE算法整体流程

建模方式
- 同步建模：将预训练的2D空间VAE膨胀为3D VAE。
- 顺序建模：先压缩空间维度，再压缩时间信息。
- 新的VAE结合两者优点，受益于跨模态文本信息，实现更好视频重建质量。

六、视频VAE算法实现细节

时间感知的空间自编码器细节
- 将SD VAE的2D卷积扩展为3D卷积并附加时间卷积形成STBlock3D。
- 注入跨注意层，按输入块、下采样块、中间块、中间块、上采样块、输出块方式重建视频。
跨模态学习效果
- 纹理信息提高恢复视频细节能力，注意力图与输入文本提示对应。
图像与视频联合训练效果
- 联合训练进一步提高视频重建质量，在细节方面与原图更符合。

七、视频VAE环境搭建与运行

搭建算法运行环境
- 克隆代码到本地：git clone git@github.com:yzxing87/vae.git并进入目录。
- 创建虚拟环境：conda create --name vae python=3.10 -y并激活。
- 安装三方依赖库：pip install -r requirements.txt。
运行样例Demo
- 步骤1：根据需要下载预训练模型（https://github.com/VideoVerses/VideoVAEPlus）。
- 步骤2：构建视频或图片测试数据，分别在examples/videos/和examples/images/下按格式构建。
- 步骤3：运行视频或者图片重建，执行bash scripts/run_inference_video.sh或bash scripts/run_inference_image.sh。

八、视频VAE算法性能评估

主观效果性能评估
- 与多个SOTA基线方法（Open Sora Plan、Open Sora等）比较，该方法显著改善运动恢复，减少重影伪影。16通道模型进一步提高细节重建精度。
客观效果性能评估
- 在不同采样因子、通道和测试数据集上，该算法得分较高，证明其有效性。

香港科技大学提出的视频VAE在开源文生视频领域取得重大进展，其算法在多个方面表现出色，有望推动开源文生视频的发展。

0%