Z-Image + Depth Anything V3:3D 深度感知控制工作流

Mai 3, 2026

Z-Image + Depth Anything V3:3D 深度感知控制工作流

从传统预处理器到新一代深度估计模型,用 Depth Anything V3 为 Z-Image ControlNet 注入真实空间理解能力。


一、为什么需要更好的深度图?

在 Z-Image ControlNet 工作流中,深度图(Depth Map)是最核心的控制信号之一。它决定了生成图像的透视关系、空间层次和物体比例。但传统的深度估计方法(MiDaS、ZoeDepth)有几个明显短板:

  • 细节丢失:对远处物体的深度区分能力弱
  • 边界模糊:物体轮廓处的深度跳变不够清晰
  • 多尺度不一致:近景和远景的深度比例难以协调

Depth Anything V3(ByteDance,2025)解决了这些问题。它基于大规模深度标注数据训练,支持单目深度、相机姿态估计和 3D 点云输出,在 ComfyUI 中通过 ComfyUI-DepthAnythingV3 插件即可集成。


二、Depth Anything V3 核心能力

单目深度估计

从单张 2D 图像生成高精度深度图,支持多种分辨率:

模型版本 参数量 推理速度 (RTX 4090) 精度
Depth Anything V3-Small 24M ~50ms
Depth Anything V3-Metric 48M ~80ms 最高(带绝对距离)
Depth Anything V3-Large 180M ~150ms 极致

多视图一致性

这是 V3 相比 V2 的最大突破——当你输入多张不同角度的图像时,V3 通过 跨视图注意力机制(Cross-View Attention) 确保生成的深度图在不同视角间保持几何一致性。这意味着:

  • 视频帧序列的深度图不会"闪烁"
  • 多角度场景重建的 3D 点云无冲突
  • 适合建筑/室内等需要精确空间关系的场景

相机姿态估计

V3 不仅能输出深度,还能估算输入图像的相机参数(焦距、视角、位姿),为后续 3D 重建或 VR/AR 应用提供直接可用的数据。


三、ComfyUI 完整工作流搭建

第一步:安装 ComfyUI-DepthAnythingV3 插件

cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-DepthAnythingV3.git
cd ComfyUI-DepthAnythingV3
pip install -r requirements.txt

第二步:下载模型文件

# 在 ComfyUI/models/depth_anything/ 目录下
# Small 版(推荐日常使用)
huggingface-cli download depth-anything-2/depth-anything-v3-small --local-dir ./depth_anything/v3-small

# Metric 版(需要绝对深度距离时使用)
huggingface-cli download depth-anything-2/depth-anything-v3-metric --local-dir ./depth_anything/v3-metric

第三步:搭建 Z-Image + Depth V3 + ControlNet 工作流

核心节点连接如下:

LoadImage (输入参考图)
    ↓
DepthAnythingV3Preprocessor (生成深度图)
    ↓
ControlNetApply (Z-Image-Turbo-ControlNet-Union)
    ↓
CLIPTextEncode (Prompt)
    ↓
KSampler (Z-Image Turbo)
    ↓
VAEDecode → SaveImage

关键参数设置:

参数 推荐值 说明
ControlNet strength 0.6-0.8 深度控制不宜过强
Denoise 0.7-0.85 保留足够结构信息
CFG Scale 2.0-4.0 Z-Image Turbo 推荐低 CFG
Steps 20-30 深度控制需要更多步数

四、实战场景:建筑内景风格迁移

假设你有一张毛坯房的照片,想生成精装修效果:

Prompt 示例:

Modern luxury living room interior, marble floor, floor-to-ceiling windows,
warm ambient lighting, minimalist furniture, high-end materials,
photorealistic, architectural photography, 8k, detailed textures

工作流要点:

  1. 深度图预处理:V3 深度图直接输入,无需额外二值化
  2. ControlNet strength 调优
    • 0.4-0.5:仅保留大致空间结构,风格变化大
    • 0.6-0.7:平衡结构与创意(推荐起点)
    • 0.8-1.0:严格遵循原始空间布局
  3. 配合 Inpainting:对局部不满意区域,用 mask 重绘

对比效果:

方法 空间准确度 风格自由度 推理时间
传统 MiDaS + ControlNet ⭐⭐⭐ ⭐⭐⭐⭐ ~2s
ZoeDepth + ControlNet ⭐⭐⭐⭐ ⭐⭐⭐⭐ ~3s
Depth Anything V3 + ControlNet ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ~4s

五、视频帧深度一致性工作流

利用 V3 的多视图一致性能力,你可以为视频帧生成连贯的深度图序列,再逐帧用 Z-Image 生成风格化视频:

LoadVideo (输入视频)
    ↓
DepthAnythingV3Preprocessor (multi_view=True)
    ↓
[逐帧]
    ↓
ControlNetApply + KSampler
    ↓
VAEDecode
    ↓
SaveAnimatedPNG / VideoCombine

关键设置:

  • multi_view=True:启用跨视图一致性
  • temporal_smoothing=0.7:时间平滑系数
  • 每帧 ControlNet strength 保持一致

效果:生成的风格化视频中,物体不会"跳动"或"闪烁",空间关系在整个视频中保持稳定。


六、常见问题排查

Q1:深度图看起来"糊",物体边界不清晰

原因:分辨率过低或使用了 Small 模型处理复杂场景。

解决

  • 切换到 V3-Metric 或 V3-Large 模型
  • 输入分辨率提升到 1024x1024
  • 检查是否启用了 post_process=True(默认开启)

Q2:ControlNet 控制力太强,画面僵硬

原因:strength 过高或 denoise 过低。

解决

  • strength 从 0.6 开始下调
  • denoise 提高到 0.8 以上
  • 尝试 CFG Scale 降低到 2.0-3.0

Q3:视频帧深度不一致

原因:未启用多视图一致性或 temporal_smoothing 太低。

解决

  • 确认 multi_view=True
  • temporal_smoothing 调到 0.6-0.9
  • 确保视频帧率稳定(不要跳帧处理)

七、总结

Depth Anything V3 为 Z-Image ControlNet 工作流带来了三个关键升级:

  1. 精度飞跃:单目深度估计精度超越 MiDaS/ZoeDepth,边界更清晰
  2. 多视图一致性:跨帧/跨视角深度图不再"闪烁"
  3. 相机姿态输出:直接可用的 3D 数据,为后续应用铺路

对于建筑可视化、室内设计和视频风格化等专业场景,Depth Anything V3 + Z-Image ControlNet 组合已经超越了传统方案,成为新一代深度控制的标准工作流。


本文工作流基于 ComfyUI + Z-Image Turbo + Depth Anything V3 + ControlNet Union 2.1,所有模型均为开源免费。

Z-Image Team