Z-Image + Wan 2.2 视频生成工作流:从文本到高质量视频
用 Z-Image 生成关键帧,用 Wan 2.2 动画化 — 一条 ComfyUI 管线搞定文字到视频的完整流程。
为什么是 Z-Image + Wan 2.2?
组合优势
| 模型 | 角色 | 优势 |
|---|---|---|
| Z-Image Turbo | 图像生成 | 6B 参数蒸馏模型,亚秒级推理,真实感照片级质量 |
| Wan 2.2 | 视频生成 | 14B MoE 架构,支持 I2V 和 T2V,开源可本地部署 |
核心思路:Z-Image 生成的图像质量远超大多数视频生成模型的原生 T2V 能力,用 Z-Image 制作高质量关键帧,再交给 Wan 2.2 进行图像到视频(I2V)转换,效果远好于直接用 T2V。
工作流对比
方案 A(直接 T2V): 文本 → Wan 2.2 T2V → 视频(质量一般)
方案 B(本文方案): 文本 → Z-Image → 高质量关键帧 → Wan 2.2 I2V → 高质量视频
ComfyUI 工作流搭建
环境准备
# 1. 安装 ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
# 2. 下载 Z-Image Turbo 模型
# qwen_3_4b.safetensors (文本编码器)
# z_image_turbo_bf16.safetensors (主模型)
# ae.safetensors (VAE 编解码器)
# 3. 下载 Wan 2.2 模型
# wan2.2_i2v_14b.safetensors (图像到视频)
# 或 wan2.2_t2v_14b.safetensors (文本到视频)
# 4. 安装必要的自定义节点
# ComfyUI-WanVideoWrapper
# ComfyUI-ZImage
工作流结构
[文本提示词]
↓
┌──────────────────────────┐
│ Z-Image Turbo 分支 │
│ Prompt → KSampler(9步) │
│ → VAE Decode → 关键帧 │
└──────────┬───────────────┘
↓
┌──────────────────────────┐
│ Wan 2.2 I2V 分支 │
│ 关键帧 + Prompt │
│ → Get Image Size │
│ → Video Latent (匹配尺寸) │
│ → Wan 2.2 Sampler │
│ → Video Decode → MP4 │
└──────────────────────────┘
关键节点说明
Z-Image Turbo 分支:
- CLIP Text Encode — 输入正向提示词
- KSampler — 9 步推理,sampler:
euler,scheduler:normal - VAE Decode — 解码潜空间为像素图像
Wan 2.2 I2V 分支:
- Get Image Size — 读取 Z-Image 输出图像尺寸
- Wan2.2 Video Latent — 将关键帧转为视频潜空间,传入图像尺寸
- Wan2.2 Sampler — 生成视频帧序列(默认 16 帧)
- Video Decode — 解码为视频帧
- Save Image / Video Combine — 输出视频
避免尺寸不匹配
Wan 2.2 对输入图像尺寸有要求(必须是 64 的倍数):
# 尺寸对齐示例
width = (width // 64) * 64
height = (height // 64) * 64
在 ComfyUI 中,使用 Get Image Size 节点读取 Z-Image 输出尺寸,自动传递给 Wan 2.2。
提示词策略
视频友好型提示词
视频生成的提示词需要与图像生成提示词保持一致(或高度相关):
# Z-Image 提示词
A young woman in a red dress walking through a sunlit garden,
golden hour lighting, cinematic composition, shallow depth of field,
85mm lens, bokeh background
# Wan 2.2 提示词(保持一致性)
A young woman in a red dress walking through a sunlit garden,
golden hour lighting, gentle walking motion, swaying flowers,
cinematic slow motion
关键差异:Wan 2.2 的提示词需要增加运动描述(walking motion, swaying, etc.),而 Z-Image 的提示词专注于静态画面质量。
运动控制技巧
| 运动类型 | Wan 2.2 提示词关键词 | 效果 |
|---|---|---|
| 缓慢平移 | slow panning camera, gentle movement |
电影感镜头 |
| 人物行走 | walking motion, natural stride |
人物动画 |
| 风吹效果 | wind blowing, hair flowing, leaves rustling |
自然动态 |
| 水面波动 | rippling water, wave motion |
液体效果 |
| 旋转镜头 | orbiting camera, 360 degree rotation |
环绕视角 |
高级技巧:首尾帧控制
First + Last Frame (FFLF)
Wan 2.2 支持首尾帧控制,可以让视频从 Z-Image 生成的画面 A 过渡到画面 B:
[场景A提示词] → Z-Image → 首帧
[场景B提示词] → Z-Image → 尾帧
↓
Wan 2.2 FFLF → 从 A 到 B 的过渡视频
典型应用场景
- 日转夜:白天花园 → 同一场景夜晚
- 季节变换:春日花朵 → 秋日落叶
- 人物表情变化:微笑 → 惊讶
- 产品展示:静态产品 → 旋转展示
ComfyUI FFLF 节点连接
Z-Image Sampler A → VAE Decode A → 首帧
Z-Image Sampler B → VAE Decode B → 尾帧
↓
Wan2.2 FFLF Video Latent (传入首帧 + 尾帧)
↓
Wan2.2 Sampler
↓
Video Decode → 过渡视频
参数调优指南
帧数选择
| 帧数 | 时长(30fps) | 显存需求 | 适用场景 |
|---|---|---|---|
| 16 帧 | ~0.5 秒 | ~8GB | 快速预览、短镜头 |
| 32 帧 | ~1 秒 | ~12GB | 短视频、社交媒体 |
| 64 帧 | ~2 秒 | ~20GB | 完整镜头、演示视频 |
| 96 帧 | ~3 秒 | ~30GB | 高质量演示 |
运动强度控制
Wan 2.2 的运动强度通过以下参数控制:
- motion_bucket_id:1-255,值越大运动越剧烈
- 推荐的起始值:128(中等运动)
- 微调方法:
- 运动不足 → 增加 10-20
- 运动过猛 → 减少 10-20
- 人物动画 → 80-100(自然步伐)
- 风景镜头 → 100-130(风、水、云)
实际案例
案例 1:产品展示视频
产品:无线蓝牙耳机
步骤:
- Z-Image 生成白底产品图(专业摄影风格)
- Wan 2.2 I2V 添加轻微旋转运动
- 输出 3 秒产品展示视频
Z-Image 提示词:
Wireless earbuds in charging case,
professional product photography,
pure white background, studio lighting,
45 degree angle, minimal design
Wan 2.2 提示词:
Wireless earbuds slowly rotating,
smooth 360 degree turn,
studio lighting, clean white background,
product showcase video
案例 2:电影感风景短片
场景:日落海滩
步骤:
- Z-Image 生成日落海滩关键帧
- Wan 2.2 I2V 添加海浪、云层运动
Z-Image 提示词:
Sunset over ocean beach, dramatic sky with orange and purple clouds,
waves crashing on shore, palm trees silhouetted,
cinematic wide shot, golden hour,
shot on ARRI Alexa, anamorphic lens
Wan 2.2 提示词:
Sunset ocean waves rolling in, clouds drifting slowly,
palm fronds swaying in wind, golden light flickering on water,
cinematic slow motion, anamorphic lens flare
性能优化
显存优化技巧
- FP16 推理:Wan 2.2 支持半精度推理,显存减半
- Tile 推理:大分辨率视频分块处理
- 梯度检查点:训练模式下使用,推理时不需要
- 模型卸载:Z-Image 和 Wan 2.2 可以轮流加载
推荐配置
| 显存 | 支持配置 |
|---|---|
| 8GB | Z-Image 或 Wan 2.2 单独运行,16 帧 |
| 12GB | 完整工作流,16 帧,FP16 |
| 16GB | 完整工作流,32 帧,FP16 |
| 24GB+ | 完整工作流,64+ 帧,BF16 |
常见问题
Q: Z-Image 和 Wan 2.2 的提示词可以完全一样吗?
可以,但效果不如分别优化。Z-Image 需要画面质量描述,Wan 2.2 需要运动描述。建议 Z-Image 提示词做基础,Wan 2.2 在此基础上增加运动相关词汇。
Q: 生成的视频模糊怎么办?
- 检查 Z-Image 输入图像分辨率是否足够
- 增加
motion_bucket_id让运动更明显 - 减少 Wan 2.2 采样步数(过度采样会引入噪点)
- 尝试降低运动强度
Q: 如何保持多段视频的连贯性?
使用相同的关键帧作为衔接点:
- 视频 A 的尾帧 = 视频 B 的首帧
- 或者两段视频共享中间帧
- 后期用剪辑软件拼接
总结
Z-Image + Wan 2.2 的组合提供了开源、可本地部署、高质量的文字到视频工作流:
- Z-Image Turbo 负责生成高质量关键帧(亚秒级推理)
- Wan 2.2 负责图像到视频转换(14B MoE 架构)
- ComfyUI 统一编排两个模型,形成端到端管线
- 提示词策略:Z-Image 专注画面质量,Wan 2.2 专注运动描述
这套工作流适合:
- 电商产品展示视频
- 社交媒体短视频内容
- 电影概念预告片
- 个人创意项目
本文基于 ComfyUI + Z-Image Turbo + Wan 2.2 I2V 模型。