Z-Image 视频生成工作流:Z-Video + ControlNet + Wan 2.2 组合完全指南

6月 9, 2026

Z-Image 视频生成工作流:Z-Video + ControlNet + Wan 2.2 组合完全指南

发布时间:2026-06-09
作者:Z-Image 技术博客
阅读时间:约 12 分钟
关键词:z-image video generation, Z-Video, Wan 2.2, ControlNet, text-to-video workflow


引言

在 AI 图像生成领域取得突破性进展之后,视频生成成为下一个前沿战场。Z-Image 作为领先的开源图像生成模型,已经可以通过与 Wan 2.2 图像转视频模型的组合,实现从文本到高质量视频的完整工作流。本指南将深入讲解如何在 ComfyUI 中搭建 Z-Image + Wan 2.2 + ControlNet 的视频生成流水线,帮助你实现从创意概念到动态视觉内容的无缝转换。

为什么 Z-Image + Wan 2.2 是最佳组合?

Z-Image 的核心优势

Z-Image(特别是 Z-Image Turbo 变体)在文本到图像生成方面表现出色:

  • 高质量图像输出:支持高分辨率(最高 2K),细节丰富,色彩准确
  • Turbo 变体:仅需 8 步即可生成高质量图像,推理速度提升 5-10 倍
  • ControlNet 支持:原生支持 ControlNet Union 多控点组合,实现精确的姿态、深度和边缘控制
  • LoRA 兼容性:支持自定义风格 LoRA,可训练专属视觉风格
  • 开源可用:HuggingFace 上完全开源,支持本地部署和商用

Wan 2.2 图像转视频的能力

Wan 2.2 是目前最强大的开源图像转视频模型之一:

  • 帧一致性:生成的视频保持画面风格一致性,无明显闪烁或突变
  • 运动自然:支持多种运动模式——平移、缩放、旋转、主体运动
  • 分辨率自适应:自动匹配输入图像分辨率,避免尺寸不匹配导致的伪影
  • 音频支持:可选添加背景音乐或音效,增强视频完整度

组合工作流的核心逻辑

文本提示 → Z-Image 生成关键帧 → Wan 2.2 图像转视频 → 输出动态视频

这个组合的优势在于:

  1. 精确控制:Z-Image 的 ControlNet 确保关键帧符合预期构图
  2. 质量叠加:两个模型各自在擅长的领域发挥最佳效果
  3. 灵活扩展:可以插入中间处理步骤(如 Super Resolution 放大、风格迁移)

环境配置

1. ComfyUI 安装

# 安装 ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

# 启动
python main.py

2. 模型下载

# Z-Image Turbo(推荐)
# 从 HuggingFace 下载:
# https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

# Wan 2.2 Image-to-Video 模型
# 从 HuggingFace 下载:
# https://huggingface.co/Wan-AI/Wan2.1-I2V-14B

# ControlNet 模型
# Z-Image ControlNet Union
# https://huggingface.co/Tongyi-MAI/Z-Image-ControlNet-Union

3. 自定义节点安装

cd ComfyUI/custom_nodes

# ComfyUI-VideoHelperSuite(视频处理)
git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite
pip install -r ComfyUI-VideoHelperSuite/requirements.txt

# ComfyUI-WanVideoWrapper(Wan 2.2 封装)
git clone https://github.com/Wan-AI/ComfyUI-WanVideoWrapper

# 重启 ComfyUI 加载新节点

4. GPU 需求

配置 最低 VRAM 推荐 VRAM 说明
Z-Image Turbo 仅图像 4GB 8GB 8 步推理
Wan 2.2 14B I2V 16GB 24GB 14B 参数模型
完整工作流 16GB 24GB 两者串联
低 VRAM 方案 8GB 使用 FP8 量化

核心工作流搭建

工作流架构概览

[CLIP Text Encode] → [Z-Image KSampler] → [Get Image Size]
                                    ↓                    ↓
                            [Save Image]           [Wan2.2 Load]
                                                     ↓
                                               [Wan2.2 I2V]
                                                     ↓
                                               [Video Combine]
                                                     ↓
                                               [VHS Video Save]

步骤一:Z-Image Turbo 关键帧生成

# ComfyUI 工作流节点配置(JSON 片段)
{
  "clip_text_encode": {
    "inputs": {
      "text": "a futuristic cityscape at sunset, cinematic lighting, 4K quality",
      "clip": ["CLIP Load", 0]
    }
  },
  "zimage_k_sampler": {
    "inputs": {
      "model": ["Z-Image Turbo Load", 0],
      "positive": ["clip_text_encode", 0],
      "negative": ["clip_text_encode_neg", 0],
      "steps": 8,
      "cfg": 1.5,
      "sampler_name": "euler",
      "scheduler": "normal",
      "width": 1024,
      "height": 576,
      "seed": 42
    }
  }
}

关键参数说明:

  • 步骤数:Z-Image Turbo 推荐 4-8 步。步数越少速度越快,8 步为质量平衡点
  • CFG Scale:Z-Image Turbo 推荐 1.0-1.5。过高的 CFG 会导致过度饱和和细节丢失
  • 分辨率:1024×576(16:9 视频比例)是最佳起点,可调整为 1280×720 以获得更高清视频

步骤二:ControlNet 精确控制(可选)

如果你需要在生成的关键帧中使用 ControlNet 控制构图:

# ControlNet Union 节点配置
{
  "controlnet_union": {
    "inputs": {
      "control_net": ["ControlNet Load (Z-Image Union)", 0],
      "image": ["ControlNet Preprocessor", 0],
      "strength": 0.8,
      "start_percent": 0.0,
      "end_percent": 1.0
    }
  },
  "k_sampler_with_controlnet": {
    "inputs": {
      "model": ["Z-Image Turbo Load", 0],
      "positive": ["clip_text_encode", 0],
      "control_net": ["controlnet_union", 0],
      "steps": 8,
      "cfg": 1.5
    }
  }
}

支持的 ControlNet 类型:

类型 用途 推荐强度
Canny 边缘检测 控制构图轮廓 0.6-0.8
Depth 深度图 控制空间层次 0.5-0.7
OpenPose 姿态 控制人物姿势 0.7-0.9
Normal 法线图 控制光影方向 0.4-0.6
Tile 分块 控制整体风格 0.3-0.5

步骤三:Wan 2.2 图像转视频

{
  "get_image_size": {
    "inputs": {
      "image": ["zimage_k_sampler", 0]
    }
  },
  "wan22_i2v": {
    "inputs": {
      "model": ["Wan2.2 14B Load", 0],
      "image": ["zimage_k_sampler", 0],
      "width": ["get_image_size", 0],
      "height": ["get_image_size", 1],
      "num_frames": 81,
      "frame_rate": 24,
      "motion_strength": 0.7,
      "seed": 42
    }
  }
}

Wan 2.2 关键参数:

  • 帧数:81 帧(约 3.4 秒 @24fps)。增加帧数会线性增加 VRAM 需求
  • 帧率:24fps(电影级)、30fps(流畅)、15fps(简洁动画)
  • 运动强度:0.0-1.0。低值产生微妙动画,高值产生剧烈运动
  • 推理步骤:默认 30 步。减少到 15 步可加速,但运动质量略有下降

步骤四:视频合成与导出

{
  "video_combine": {
    "inputs": {
      "frames": ["wan22_i2v", 0],
      "frame_rate": 24,
      "format": "video/h264-mp4",
      "crf": 18,
      "loop": 0
    }
  },
  "vhs_video_save": {
    "inputs": {
      "images": ["video_combine", 0],
      "filename_prefix": "zimage_wan_output",
      "output_dir": "outputs/videos"
    }
  }
}

高级技巧

技巧一:多关键帧插值

通过生成多个关键帧并在它们之间进行插值,可以创建更复杂的视频序列:

Keyframe A (Z-Image) → Wan I2V → 片段1
Keyframe B (Z-Image) → Wan I2V → 片段2
Keyframe C (Z-Image) → Wan I2V → 片段3
片段1 + 片段2 + 片段3 → ffmpeg 拼接 → 完整视频

实现方法:

# 使用 ffmpeg 拼接多个视频片段
ffmpeg -f concat -safe 0 -i filelist.txt -c copy output.mp4

# filelist.txt 内容:
# file 'fragment_1.mp4'
# file 'fragment_2.mp4'
# file 'fragment_3.mp4'

技巧二:LoRA 风格一致性

在 Z-Image 阶段加载风格 LoRA,确保所有关键帧具有统一的视觉风格:

{
  "lora_loader": {
    "inputs": {
      "model": ["Z-Image Turbo Load", 0],
      "clip": ["CLIP Load", 0],
      "lora_name": "my_style_lora.safetensors",
      "strength_model": 1.0,
      "strength_clip": 1.0
    }
  }
}

技巧三:Super Resolution 后处理

在图像生成阶段使用超分辨率提升输入质量,间接提升视频输出:

{
  "upscale_model": {
    "inputs": {
      "upscale_model": ["Upscale Model Load (4x-UltraMix)", 0],
      "image": ["zimage_k_sampler", 0],
      "scale_by": 2.0
    }
  }
}

技巧四:提示词工程优化

好的视频提示词公式:

[主体描述] + [动作/运动描述] + [环境/背景] + [风格/氛围] + [技术规格]

示例:

一只优雅的白猫在樱花树下奔跑,花瓣随风飘散,
日式庭院背景,柔和晨光,
宫崎骏动画风格,
4K cinematic, smooth motion, gentle camera pan right

避免的提示词:

  • 过于复杂的场景描述(多个主体同时运动)
  • 快速切换视角的要求
  • 文本渲染(视频中的文字容易变形)

常见问题与解决方案

问题 1:视频闪烁(Flickering)

原因:Wan 2.2 在某些帧之间出现不连贯的运动。

解决方案:

  1. 降低 motion_strength(0.5-0.6)
  2. 增加推理步骤到 30-50
  3. 在 ComfyUI 中使用 Temporal Consistency 节点
  4. 降低输入图像的复杂度(减少细节和纹理)

问题 2:VRAM 不足

原因:Wan 2.2 14B 模型 + Z-Image Turbo 同时加载。

解决方案:

  1. 分段执行:先生成图像保存,再加载 Wan 模型进行 I2V
  2. FP8 量化:使用 FP8 版本的 Wan 2.2(VRAM 需求减半)
  3. 降低帧数:从 81 帧降到 49 帧(2 秒视频)
  4. 降低分辨率:从 1024×576 降到 832×480

问题 3:运动不自然

原因:提示词中运动描述不足或 motion_strength 设置不当。

解决方案:

  1. 在提示词中明确描述运动方向("slow pan right", "zoom in on subject")
  2. 尝试不同的 motion_strength 值(0.3-0.9)
  3. 使用 ControlNet 深度图约束运动轨迹
  4. 生成多个种子结果,选择最佳运动效果

问题 4:图像与视频风格不一致

原因:Wan 2.2 在 I2V 过程中改变了原始图像的风格。

解决方案:

  1. 在 Wan 2.2 中使用与 Z-Image 相同的提示词
  2. 降低 motion_strength 减少风格漂移
  3. 在视频后期使用风格迁移节点统一色调

完整工作流 JSON 模板

以下是一个可直接导入 ComfyUI 的简化工作流模板结构:

{
  "1": {
    "class_type": "CheckpointLoaderSimple",
    "inputs": {"ckpt_name": "zimage_turbo.safetensors"}
  },
  "2": {
    "class_type": "CLIPTextEncode",
    "inputs": {
      "text": "your prompt here",
      "clip": ["1", 1]
    }
  },
  "3": {
    "class_type": "KSampler",
    "inputs": {
      "model": ["1", 0],
      "positive": ["2", 0],
      "negative": ["2_neg", 0],
      "steps": 8,
      "cfg": 1.5,
      "width": 1024,
      "height": 576,
      "seed": 42
    }
  },
  "4": {
    "class_type": "Wan2.2_I2V",
    "inputs": {
      "image": ["3", 0],
      "num_frames": 81,
      "frame_rate": 24,
      "motion_strength": 0.7
    }
  },
  "5": {
    "class_type": "VHS_VideoCombine",
    "inputs": {
      "images": ["4", 0],
      "frame_rate": 24,
      "format": "video/h264-mp4"
    }
  }
}

总结

Z-Image + Wan 2.2 + ControlNet 组合为开源视频生成提供了前所未有的灵活性和质量控制能力。通过合理配置三个组件,你可以实现:

  1. 精确的关键帧控制:Z-Image 的 ControlNet 确保每一帧的构图和风格符合预期
  2. 自然的运动过渡:Wan 2.2 的图像转视频能力将静态画面转化为流畅动画
  3. 可扩展的工作流:支持 LoRA、超分辨率、多片段拼接等高级功能

下一步行动

  • 入门级:先单独运行 Z-Image 和 Wan 2.2,熟悉各自参数
  • 进阶级:搭建完整串联工作流,尝试不同的运动强度和提示词组合
  • 专业级:加入 ControlNet、LoRA、多关键帧插值,制作复杂视频序列

随着 Wan 2.2 和 Z-Image 模型的持续迭代,这个组合工作流的能力还将不断提升。建议持续关注 HuggingFace 和 ComfyUI 社区的模型更新,及时获取最新的功能和性能优化。

Z-Image Team

Z-Image 视频生成工作流:Z-Video + ControlNet + Wan 2.2 组合完全指南 | Blog