Z-Image + Depth Anything V3：3D 深度感知控制工作流

从传统预处理器到新一代深度估计模型，用 Depth Anything V3 为 Z-Image ControlNet 注入真实空间理解能力。

一、为什么需要更好的深度图？

在 Z-Image ControlNet 工作流中，深度图（Depth Map）是最核心的控制信号之一。它决定了生成图像的透视关系、空间层次和物体比例。但传统的深度估计方法（MiDaS、ZoeDepth）有几个明显短板：

细节丢失：对远处物体的深度区分能力弱
边界模糊：物体轮廓处的深度跳变不够清晰
多尺度不一致：近景和远景的深度比例难以协调

Depth Anything V3（ByteDance，2025）解决了这些问题。它基于大规模深度标注数据训练，支持单目深度、相机姿态估计和 3D 点云输出，在 ComfyUI 中通过 ComfyUI-DepthAnythingV3 插件即可集成。

二、Depth Anything V3 核心能力

单目深度估计

从单张 2D 图像生成高精度深度图，支持多种分辨率：

模型版本	参数量	推理速度 (RTX 4090)	精度
Depth Anything V3-Small	24M	~50ms	高
Depth Anything V3-Metric	48M	~80ms	最高（带绝对距离）
Depth Anything V3-Large	180M	~150ms	极致

多视图一致性

这是 V3 相比 V2 的最大突破——当你输入多张不同角度的图像时，V3 通过 跨视图注意力机制（Cross-View Attention） 确保生成的深度图在不同视角间保持几何一致性。这意味着：

视频帧序列的深度图不会"闪烁"
多角度场景重建的 3D 点云无冲突
适合建筑/室内等需要精确空间关系的场景

相机姿态估计

V3 不仅能输出深度，还能估算输入图像的相机参数（焦距、视角、位姿），为后续 3D 重建或 VR/AR 应用提供直接可用的数据。

三、ComfyUI 完整工作流搭建

第一步：安装 ComfyUI-DepthAnythingV3 插件

cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-DepthAnythingV3.git
cd ComfyUI-DepthAnythingV3
pip install -r requirements.txt

第二步：下载模型文件

# 在 ComfyUI/models/depth_anything/ 目录下
# Small 版（推荐日常使用）
huggingface-cli download depth-anything-2/depth-anything-v3-small --local-dir ./depth_anything/v3-small

# Metric 版（需要绝对深度距离时使用）
huggingface-cli download depth-anything-2/depth-anything-v3-metric --local-dir ./depth_anything/v3-metric

第三步：搭建 Z-Image + Depth V3 + ControlNet 工作流

核心节点连接如下：

LoadImage (输入参考图)
    ↓
DepthAnythingV3Preprocessor (生成深度图)
    ↓
ControlNetApply (Z-Image-Turbo-ControlNet-Union)
    ↓
CLIPTextEncode (Prompt)
    ↓
KSampler (Z-Image Turbo)
    ↓
VAEDecode → SaveImage

关键参数设置：

参数	推荐值	说明
ControlNet strength	0.6-0.8	深度控制不宜过强
Denoise	0.7-0.85	保留足够结构信息
CFG Scale	2.0-4.0	Z-Image Turbo 推荐低 CFG
Steps	20-30	深度控制需要更多步数

四、实战场景：建筑内景风格迁移

假设你有一张毛坯房的照片，想生成精装修效果：

Prompt 示例：

Modern luxury living room interior, marble floor, floor-to-ceiling windows,
warm ambient lighting, minimalist furniture, high-end materials,
photorealistic, architectural photography, 8k, detailed textures

工作流要点：

深度图预处理：V3 深度图直接输入，无需额外二值化
ControlNet strength 调优：
- 0.4-0.5：仅保留大致空间结构，风格变化大
- 0.6-0.7：平衡结构与创意（推荐起点）
- 0.8-1.0：严格遵循原始空间布局
配合 Inpainting：对局部不满意区域，用 mask 重绘

对比效果：

方法	空间准确度	风格自由度	推理时间
传统 MiDaS + ControlNet	⭐⭐⭐	⭐⭐⭐⭐	~2s
ZoeDepth + ControlNet	⭐⭐⭐⭐	⭐⭐⭐⭐	~3s
Depth Anything V3 + ControlNet	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	~4s

五、视频帧深度一致性工作流

利用 V3 的多视图一致性能力，你可以为视频帧生成连贯的深度图序列，再逐帧用 Z-Image 生成风格化视频：

LoadVideo (输入视频)
    ↓
DepthAnythingV3Preprocessor (multi_view=True)
    ↓
[逐帧]
    ↓
ControlNetApply + KSampler
    ↓
VAEDecode
    ↓
SaveAnimatedPNG / VideoCombine

关键设置：

multi_view=True：启用跨视图一致性
temporal_smoothing=0.7：时间平滑系数
每帧 ControlNet strength 保持一致

效果：生成的风格化视频中，物体不会"跳动"或"闪烁"，空间关系在整个视频中保持稳定。

六、常见问题排查

Q1：深度图看起来"糊"，物体边界不清晰

原因：分辨率过低或使用了 Small 模型处理复杂场景。

解决：

切换到 V3-Metric 或 V3-Large 模型
输入分辨率提升到 1024x1024
检查是否启用了 post_process=True（默认开启）

Q2：ControlNet 控制力太强，画面僵硬

原因：strength 过高或 denoise 过低。

解决：

strength 从 0.6 开始下调
denoise 提高到 0.8 以上
尝试 CFG Scale 降低到 2.0-3.0

Q3：视频帧深度不一致

原因：未启用多视图一致性或 temporal_smoothing 太低。

解决：

确认 multi_view=True
temporal_smoothing 调到 0.6-0.9
确保视频帧率稳定（不要跳帧处理）

七、总结

Depth Anything V3 为 Z-Image ControlNet 工作流带来了三个关键升级：

精度飞跃：单目深度估计精度超越 MiDaS/ZoeDepth，边界更清晰
多视图一致性：跨帧/跨视角深度图不再"闪烁"
相机姿态输出：直接可用的 3D 数据，为后续应用铺路

对于建筑可视化、室内设计和视频风格化等专业场景，Depth Anything V3 + Z-Image ControlNet 组合已经超越了传统方案，成为新一代深度控制的标准工作流。

本文工作流基于 ComfyUI + Z-Image Turbo + Depth Anything V3 + ControlNet Union 2.1，所有模型均为开源免费。

Z-Image + Depth Anything V3：3D 深度感知控制工作流

Table of Contents

Z-Image + Depth Anything V3：3D 深度感知控制工作流

一、为什么需要更好的深度图？

二、Depth Anything V3 核心能力

单目深度估计

多视图一致性

相机姿态估计

三、ComfyUI 完整工作流搭建

第一步：安装 ComfyUI-DepthAnythingV3 插件

第二步：下载模型文件

第三步：搭建 Z-Image + Depth V3 + ControlNet 工作流

四、实战场景：建筑内景风格迁移

五、视频帧深度一致性工作流

六、常见问题排查

Q1：深度图看起来"糊"，物体边界不清晰

Q2：ControlNet 控制力太强，画面僵硬

Q3：视频帧深度不一致

七、总结