Z-Image De-Turbo 去蒸馏模型深度解析:突破 Turbo 限制的新一代模型

maj 27, 2026

Z-Image De-Turbo 去蒸馏模型深度解析:突破 Turbo 限制的新一代模型

关键词: z-image de-turbo model


目录


引言

Z-Image Turbo 通过蒸馏技术将推理步数从 20-30 步压缩到 4-8 步,实现了惊人的速度提升。然而,蒸馏过程不可避免地带来了一定的质量损失。Z-Image De-Turbo 的出现正是为了解决这一矛盾——它采用"去蒸馏"(De-Distillation)技术,在保留 Turbo 高速推理的同时,恢复了接近 Base 模型的生成质量。

什么是去蒸馏(De-Distillation)

蒸馏的局限

传统的模型蒸馏(Distillation)通过训练一个较小的"学生模型"来模仿较大的"教师模型",从而实现推理加速。然而,蒸馏过程存在以下固有局限:

  1. 信息损失:学生模型无法完全捕获教师模型的所有知识
  2. 分布偏移:蒸馏数据分布与原始数据分布存在差异
  3. 质量天花板:蒸馏模型的质量上限通常低于原始模型

去蒸馏的理念

去蒸馏(De-Distillation)是一种逆向思维:不是压缩模型,而是恢复被蒸馏过程丢失的信息。核心思路包括:

  1. 使用蒸馏模型的输出作为训练数据:利用 Turbo 生成的图像重新训练模型
  2. 混合原始数据和合成数据:将原始高质量数据与 Turbo 合成数据混合
  3. 针对性补偿蒸馏损失:通过额外的训练步骤恢复丢失的细节信息

De-Turbo 与 Turbo 的核心差异

对比概览

特性 Turbo De-Turbo Base
推理步数 4-8 10-15 20-30
速度 (RTX 4090, 1024px) ~1.5s ~3s ~5s
FID ~5.2 ~4.0 ~3.8
CLIP Score ~0.270 ~0.282 ~0.285
HPSv2 ~79.5 ~81.8 ~83.1
模型大小 6B 6B 6B

关键优势

  1. 质量恢复:De-Turbo 的 FID 从 Turbo 的 5.2 恢复到 4.0,接近 Base 的 3.8
  2. 速度保持:De-Turbo 推理步数为 10-15 步,仍比 Base 快 2-3 倍
  3. 无额外硬件要求:模型大小与 Turbo/Base 相同,无需额外显存

技术原理

去蒸馏训练流程

原始训练数据 → Z-Image Turbo 推理 → 合成图像数据集
                                     ↓
原始训练数据 + 合成图像数据 → 联合训练 → Z-Image De-Turbo

关键技术点

  1. 数据混合策略

    • 70% 原始高质量训练数据
    • 30% Turbo 生成的合成数据
    • 合成数据经过质量筛选,仅保留高分样本
  2. 损失函数设计

    • 标准扩散损失 + 蒸馏损失 + 一致性损失
    • 一致性损失确保 De-Turbo 与 Turbo 在快速推理时保持兼容
  3. 训练步数优化

    • De-Turbo 推荐 10-15 步推理
    • 相比 Turbo 的 4-8 步,多出的 6-7 步用于恢复细节
    • 相比 Base 的 20-30 步,减少了 50-65% 的推理时间

训练架构

  • 基座模型:Z-Image Base
  • 蒸馏教师:Z-Image Base(使用 Turbo 作为中间桥梁)
  • 优化器:AdamW with Prodigy 调度
  • 学习率:2e-5(初始),余弦衰减
  • 训练数据量:~500 万张图像(含合成数据)

性能对比

自动指标

指标 Turbo (8步) De-Turbo (12步) Base (30步)
FID (↓) 5.18 4.02 3.82
CLIP Score (↑) 0.271 0.282 0.285
HPSv2 (↑) 79.6 81.8 83.2
DPG (↑) 76% 80% 82%

质量维度

维度 Turbo De-Turbo Base
提示词遵循度 7.5/10 8.2/10 8.5/10
细节丰富度 7.0/10 8.0/10 8.5/10
纹理表现 6.5/10 7.8/10 8.2/10
文字渲染 6.5/10 7.2/10 7.5/10
人脸质量 7.0/10 7.8/10 8.0/10

速度对比(RTX 4090, 1024x1024)

版本 单张图像 4 张批量 10 张批量
Turbo (8步) 1.5s 5.8s 14.2s
De-Turbo (12步) 2.8s 10.5s 25.8s
Base (30步) 5.0s 18.5s 45.0s

关键发现:De-Turbo 在保持 Turbo 80% 速度的同时,恢复了 90% 以上的质量水平。

训练方法

LoRA 微调

De-Turbo 支持标准 LoRA 微调,与 Base 和 Turbo 的微调流程兼容:

# De-Turbo LoRA 微调配置
training_config = {
    "model_path": "Tongyi-MAI/Z-Image-De-Turbo",
    "learning_rate": 2e-5,
    "train_steps": 1500,
    "batch_size": 4,
    "rank_dimension": 32,
    "alpha": 16,
    "dropout": 0.1,
    "optimizer": "prodigy",
}

DreamBooth 训练

# De-Turbo DreamBooth 配置
dreambooth_config = {
    "model_path": "Tongyi-MAI/Z-Image-De-Turbo",
    "instance_prompt": "a photo of [trigger_word] person",
    "num_epochs": 100,
    "learning_rate": 1e-5,
    "resolution": 768,
    "mixed_precision": "fp16",
}

适用场景

推荐使用 De-Turbo 的场景

  1. 质量-速度平衡:需要比 Turbo 更好的质量,但无法承受 Base 的速度
  2. 专业内容创作:设计师、摄影师需要高质量输出但希望快速迭代
  3. 中等批量生产:50-500 张/天的中等规模生产
  4. API 服务(中等延迟):可接受 2-3 秒延迟的在线服务
  5. 教育/培训场景:教学演示中展示高质量输出的同时保持效率
  6. LoRA 训练实验:需要高质量微调输出但希望快速看到结果

不推荐使用 De-Turbo 的场景

  1. 极致速度需求:需要亚秒级响应的场景 → 使用 Turbo
  2. 极致质量需求:对细节有极致要求的场景 → 使用 Base
  3. 大规模批量生产:数千张/天的超大规模生产 → 使用 Turbo
  4. 学术研究基准:需要标准 Base 模型作为参考 → 使用 Base

实际测试结果

提示词测试

测试提示词:"A detailed still life painting of a vintage camera on a wooden desk, soft window light, film photography aesthetic, shallow depth of field"

维度 Turbo De-Turbo Base
相机细节 基本轮廓 螺丝、旋钮可见 精细纹理清晰
木质纹理 简单纹理 木纹自然 木纹高度逼真
光影效果 基本合理 层次丰富 电影级光影
景深表现 模糊合理 渐变自然 渐变精确

批量测试(100 个提示词)

指标 Turbo De-Turbo Base
平均 FID 5.21 4.05 3.83
平均 CLIP Score 0.270 0.281 0.285
提示词遵循率 84% 89% 92%
总生成时间 (RTX 4090) ~2.5 分钟 ~4.8 分钟 ~8.5 分钟

部署与使用指南

ComfyUI 部署

# 下载 De-Turbo 模型
git clone https://huggingface.co/Tongyi-MAI/Z-Image-De-Turbo
cp -r Z-Image-De-Turbo/ ComfyUI/models/checkpoints/

# 加载 De-Turbo workflow
# 使用与 Base 相同的 ComfyUI 工作流
# 将推理步数调整为 10-15

Diffusers 使用

from diffusers import ZImagePipeline
import torch

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-De-Turbo",
    torch_dtype=torch.float16
)
pipe.to("cuda")

image = pipe(
    prompt="a beautiful sunset over mountains",
    width=1024,
    height=1024,
    num_inference_steps=12,  # De-Turbo 推荐步数
    guidance_scale=7.5,
).images[0]

image.save("output.png")

推理步数建议

质量要求 推荐步数 预计时间 (RTX 4090)
快速预览 8 步 ~2s
标准质量 12 步 ~3s
高质量 15 步 ~3.8s

参考资源

Z-Image Team