MOVA：革命性的开源视频-音频生成模型

引言

2026年1月29日，OpenMOSS 团队与 MOSI 合作正式发布了 MOVA（MOSS-Video-and-Audio），这是一个突破性的开源基础模型，旨在解决 AI 视频生成的"无声时代"问题。与传统的级联方法（分别生成视频和音频）不同，MOVA 实现了真正的原生双模态生成——在单次推理中同时合成视频和音频，实现完美同步。

在 Sora 2、Veo 3 和 Kling 等闭源模型主导的行业中，MOVA 作为完全开源的替代方案脱颖而出，向 AI 社区公开了模型权重、训练代码、推理代码和微调配方。

MOVA 的独特之处

原生双模态生成

MOVA 最重要的创新是能够同时生成视频和音频内容，而不是在后期制作中合并它们。这种原生双模态方法消除了级联管道中常见的同步错误和质量下降问题，产生完美对齐的视听内容。

技术架构

MOVA 采用创新的非对称双塔架构，配备双向交叉注意力融合机制：

总参数量：32B（推理时 18B 活跃）
架构类型：混合专家（MoE）模型
设计理念：利用预训练的视频和音频塔，通过交叉注意力融合实现丰富的模态交互

这种架构使 MOVA 能够理解和生成视觉内容与相应音频之间的复杂关系，包括：

多语言唇形同步：跨多种语言的行业级精度
环境感知音效：根据上下文生成适当的音频
高保真合成：专业级视频-音频输出质量

MOVA 模型规格

可用模型

MOVA 发布了两个分辨率版本，以适应不同的使用场景和硬件能力：

MOVA-360p

分辨率：360p 视频生成
时长：每次生成最多 8 秒
使用场景：开发、测试和资源受限环境
下载地址：Hugging Face

MOVA-720p

分辨率：720p 高清视频生成
时长：每次生成最多 8 秒
使用场景：生产级内容创作
下载地址：Hugging Face

模型参数

总参数量：320 亿
活跃参数：推理时 180 亿（MoE 架构）
模型类型：混合专家（MoE）扩散模型
许可证：Apache 2.0（完全开源）
框架：Diffusers
格式：Safetensors

硬件要求与性能

推理性能基准

MOVA 的性能因硬件配置而异。以下是生成 8 秒 360p 视频的官方基准测试：

NVIDIA RTX 4090（消费级 GPU）

显存使用：48GB（使用组件级卸载）
处理速度：每个推理步骤 37.5 秒
配置：组件级卸载到系统内存
适用于：发烧友和小型工作室的高端消费级硬件

NVIDIA H100（数据中心 GPU）

显存使用：48GB（使用组件级卸载）
处理速度：每个推理步骤 9.0 秒
配置：组件级卸载到系统内存
适用于：需要更快生成速度的生产环境

内存优化配置

显存使用：低至 12GB
配置：启用逐层卸载
权衡：处理时间显著增加
适用于：GPU 内存有限的用户

系统要求

最低要求：

GPU：NVIDIA RTX 3090 或同等级别（24GB 显存）
系统内存：64GB
存储空间：100GB 可用空间用于模型权重
操作系统：Linux（Ubuntu 20.04+）、Windows 10/11、macOS

推荐配置：

GPU：NVIDIA RTX 4090 或 H100（48GB+ 显存）
系统内存：128GB
存储空间：200GB SSD
操作系统：Linux（Ubuntu 22.04+）

安装与设置

环境配置

MOVA 需要 Python 3.13，可以使用 conda 进行环境管理：

# 创建新的 conda 环境
conda create -n mova python=3.13 -y

# 激活环境
conda activate mova

# 从源代码安装 MOVA
pip install -e .

下载模型权重

MOVA 模型权重托管在 Hugging Face 上，可以使用 Hugging Face CLI 下载：

# 安装 Hugging Face CLI
pip install huggingface-hub

# 下载 MOVA-360p 模型
huggingface-cli download OpenMOSS-Team/MOVA-360p --local-dir /path/to/MOVA-360p

# 下载 MOVA-720p 模型
huggingface-cli download OpenMOSS-Team/MOVA-720p --local-dir /path/to/MOVA-720p

基本使用

安装完成后，您可以使用 MOVA 的推理 API 生成视频-音频内容：

from mova import MOVAModel

# 加载模型
model = MOVAModel.from_pretrained("/path/to/MOVA-720p")

# 从文本提示生成带音频的视频
result = model.generate(
    prompt="一个人在咖啡馆说话，带有环境音效",
    duration=8,  # 秒
    resolution="720p"
)

# 保存输出
result.save("output.mp4")

训练与微调

MOVA 提供全面的训练能力，包含三种 LoRA 微调模式以适应不同的硬件配置：

低资源模式（单 GPU）

显存：约 18GB
系统内存：约 80GB
适用于：使用消费级 GPU 的个人研究者和开发者

加速模式（单 GPU）

显存：约 100GB
适用于：配备专业级 GPU 的高端工作站

加速 + FSDP 模式（多 GPU）

配置：8 个 GPU
每个 GPU 显存：约 50GB
处理速度：每个训练步骤 22.2 秒
适用于：研究实验室和生产训练管道

性能评估

Verse-Bench 测试结果

MOVA 在 Verse-Bench（视频-音频生成模型综合基准测试）上表现出色：

LSE-D 分数：7.094（720p，启用双 CFG）
LSE-C 分数：7.452（720p，启用双 CFG）
排名：在唇形同步精度方面超越现有开源模型
语音识别：与同类模型相比具有优越的指标

人工评估

在盲测人工评估中，MOVA 取得了：

与同类开源模型相比的强劲 Elo 分数
在并排比较中的高胜率
视听同步质量获得积极反馈

MOVA 与其他视频生成模型对比

与闭源模型的比较

功能	MOVA	Sora 2	Veo 3.1	Kling AI
开源	✅ 是	❌ 否	❌ 否	❌ 否
原生音频	✅ 是	✅ 是	✅ 是	✅ 是
最大时长	8秒	20秒	可变	120秒
最大分辨率	720p	1080p	4K	1080p
唇形同步	✅ 优秀	✅ 优秀	✅ 优秀	✅ 优秀
训练代码	✅ 可用	❌ 否	❌ 否	❌ 否
模型权重	✅ 可用	❌ 否	❌ 否	❌ 否
成本	免费	付费	付费	付费

MOVA 的关键优势

1. 完全透明：与闭源替代方案不同，MOVA 提供对模型架构、训练数据管道和微调脚本的完全访问权限。

2. 研究自由：研究人员可以不受限制地修改、扩展和实验 MOVA。

3. 成本效益：无 API 费用或使用限制——在您自己的硬件上运行 MOVA。

4. 社区驱动：开源开发使快速改进和社区贡献成为可能。

使用场景与应用

内容创作

社交媒体：为 TikTok、Instagram Reels 和 YouTube Shorts 等平台生成带同步音频的短视频内容
营销：创建带旁白的产品演示和宣传视频
教育：制作带解说和视觉演示的教育内容

研究与开发

AI 研究：研究视频-音频生成机制并改进现有架构
多模态学习：探索视觉和听觉信息之间的跨模态关系
基准开发：为视频-音频生成质量创建新的评估指标

娱乐

动画：生成带同步对话的动画序列
音乐视频：创建与音乐作品匹配的视觉内容
游戏开发：生成带配音的过场动画和角色动画

开始使用 MOVA

快速入门指南

设置环境：使用 Python 3.13 和 conda
下载模型权重：从 Hugging Face 下载（选择 360p 或 720p）
安装依赖：使用 pip 安装
运行首次生成：使用简单的文本提示
实验参数：优化以适应您的使用场景

社区资源

GitHub 仓库：https://github.com/OpenMOSS/MOVA
Hugging Face 模型：
- MOVA-360p
- MOVA-720p
文档：GitHub 仓库中提供
社区讨论：在 Hugging Face 上加入对话

结论

MOVA 代表了 AI 视频-音频生成技术民主化的重要里程碑。通过提供 Sora 2、Veo 3 和 Kling 等闭源模型的完全开源替代方案，MOVA 使研究人员、开发者和内容创作者能够在没有专有系统限制的情况下探索和创新。

凭借其原生双模态生成、行业级唇形同步和全面的训练资源，MOVA 有望加速多模态 AI 的研究和开发。无论您是探索新架构的研究人员、构建应用程序的开发者，还是制作视频的内容创作者，MOVA 都提供了将您的愿景变为现实的工具和灵活性。

MOVA 的发布标志着开源视频生成"无声时代"的终结。随着社区继续在此基础上构建，我们可以期待视频-音频生成质量、效率和可访问性的快速进步。

常见问题

问：我可以将 MOVA 用于商业项目吗？
答：可以，MOVA 在 Apache 2.0 许可证下发布，允许商业使用。

问：运行 MOVA 需要什么 GPU？
答：最低需要 NVIDIA RTX 3090（24GB 显存），但推荐使用 RTX 4090 或 H100 以获得更好的性能。

问：MOVA 与 Sora 2 在质量上如何比较？
答：虽然 Sora 2 支持更长的时长和更高的分辨率，但 MOVA 在 8 秒 720p 生成方面提供了具有竞争力的质量，并具有完全开源的优势。

问：我可以在自己的数据上微调 MOVA 吗？
答：可以，MOVA 提供三种 LoRA 微调模式和完整的训练脚本。

问：MOVA 适合实时应用吗？
答：当前的推理速度（高端 GPU 上每步 9-37.5 秒）使 MOVA 更适合离线生成而非实时应用。

关键词：MOVA、视频生成、音频生成、开源 AI、视频音频合成、MOVA 模型、MOVA 720p、MOVA 360p、多模态 AI、唇形同步、OpenMOSS、AI 视频生成、文本生成视频、图片生成视频、原生双模态生成、MoE 模型、混合专家、视频 AI、音频 AI、Sora 替代方案、开源视频模型

参考来源：

MOVA：革命性的开源视频-音频生成模型

Table of Contents

MOVA：革命性的开源视频-音频生成模型

引言

MOVA 的独特之处

原生双模态生成

技术架构

MOVA 模型规格

可用模型

MOVA-360p

MOVA-720p

模型参数

硬件要求与性能

推理性能基准

NVIDIA RTX 4090（消费级 GPU）

NVIDIA H100（数据中心 GPU）

内存优化配置

系统要求

安装与设置

环境配置

下载模型权重

基本使用

训练与微调

低资源模式（单 GPU）

加速模式（单 GPU）

加速 + FSDP 模式（多 GPU）

性能评估

Verse-Bench 测试结果

人工评估

MOVA 与其他视频生成模型对比

与闭源模型的比较

MOVA 的关键优势

使用场景与应用

内容创作

研究与开发

娱乐

开始使用 MOVA

快速入门指南

社区资源

结论

常见问题