ComfyUI实践指南:手把手教你玩转ERNIE-Image!

4月 20, 2026

ComfyUI实践指南:手把手教你玩转ERNIE-Image!

最近,全新文生图开源模型——ERNIE-Image正式与大家见面了。它基于 8B 参数的 DiT 架构,在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格,因此尤其适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。

ERNIE-Image开源SOTA!消费级显卡搞定顶级渲染、高密度文本绘图

  • ERNIE-Image - SFT模型:更强的通用能力和指令忠实度,推理步数 50 步
  • ERNIE-Image-Turbo - 极速模型:通过 DMD 和 RL 优化,仅需 8 步即可实现更快的速度和更高的美学质量

今天,我们带来一篇超友好的 ComfyUI 实战教程,手把手带你完成 ERNIE-Image 的部署与使用。即使是新手,也能轻松上手!

ComfyUI相关仓库

安装ComfyUI与权重下载

1.1 网页版安装

网页版安装需要拉取最新版本的 ComfyUI 仓库并配置相关的 Python 环境。

### 拉取最新的ComfyUI仓库:
git clone https://github.com/Comfy-Org/ComfyUI.git
### 配置ComfyUI运行的环境并安装最新的包含有ERNIE-Image的template:
cd ComfyUI && pip install -r requirements.txt && pip install comfyui-workflow-templates==0.9.56

1.2 客户端安装

下载 ComfyUI 最新版本 v0.19.1:

https://www.comfy.org/zh-cn/download

image-03

1.3 模型权重下载

让 ERNIE-Image-Turbo 在服务器端/本地顺利运行,你需要在 ComfyUI 中正确配置四个核心组件:扩散模型、文本编码器、Prompt Enhancer 和变分自编码器(VAE)。从 HuggingFace 下载 ERNIE-Image 核心模型权重文件,模型地址:

https://huggingface.co/Comfy-Org/ERNIE-Image

模型权重放置在 ComfyUI 的相应目录下:

  • 扩散模型(Diffusion Model)
    • 文件:ernie-image.safetensors / ernie-image-turbo.safetensors
    • 路径:ComfyUI/models/diffusion_models/
  • 文本编码器(Text Encoder)
    • 文件:ministral-3-3b.safetensors
    • 路径:ComfyUI/models/text_encoders/
  • Prompt 优化器(Prompt Enhancer)
    • 文件:ernie-image-prompt-enhancer.safetensors
    • 路径:ComfyUI/models/text_encoders/
  • 变分自编码器(VAE)
    • 文件:flux2-vae.safetensors
    • 路径:ComfyUI/models/vae/

将上述四个文件分别放入 ComfyUI 的对应目录后,即可开启 ComfyUI 工作流实践。

image-04

标准流工作

当前 ComfyUI 新版本已经支持了 ERNIE-Image 的标准工作流,用户可以直接使用官方推荐工作流来获得最佳画质和速度。

2.1 加载模型节点

在 ComfyUI 中,从左侧模板库选择“Ernie Image Turbo:文生图”或者“Ernie Image:文生图”,系统会自动加载已放入对应目录的核心组件。

image-05

如果前述文件已经放入正确位置后,相关模型会自动加载,无需手动配置,直接输入 Prompt,即可启动生图。

image-06

需要特别关注的是:当前 PE 节点作为 ERNIE-Image 的默认选项,其使用的加载器和 Text Encoder 加载器都是使用的 CLIPLoader 来加载模型权重。

  • Text Encoder 节点加载的权重文件:ministral-3-3b.safetensors 或者 ernie-image-prompt-enhancer.safetensors
  • Prompt Enhancer 节点加载的权重文件:ernie-image-prompt-enhancer.safetensors

2.2 PE设置

ERNIE Image 最适合长、详细、结构良好的提示——更丰富的描述往往会产生更好的生成质量、更精确的教学保真度,以及更忠实地呈现复杂的布局或叙事内容。在实践中,非常建议用户开启 PE,官方节点默认是开启 PE。

image-07

PE 节点的参数设置可以通过点击节点图右上角打开子图进一步设置,关键参数配置如下:

  • 最大长度(max_length):设置为 1536~2048,如果设置过小,可能会导致长文本输入信息存在遗漏的风险,但也不建议设置太大。
  • 采样模式:开启。
  • 温度系数(temperature):设置为 0.6。
  • top_p:设置为 0.8。
  • thinking mode:关闭。

2.3 采样器设置

打开子图后,同样可以看到采样器的相关配置项,具体配置推荐如下:

  • 步数(steps):ERNIE-Image-Turbo 版本建议设置为 8,ERNIE-Image 版本建议设置为 50。
  • 引导系数(CFG):ERNIE-Image-Turbo 版本建议设置为 1.0,ERNIE-Image 版本建议设置为 4.0。
  • 采样器(Sampler):推荐使用 euler
  • 调度器(Scheduler):推荐 sgm_uniform 或者默认的 simple

image-08

2.4 分辨率设置

ERNIE-Image / ERNIE-Image-Turbo 模型在下列分辨率优化效果比较好,当前避免直接生成 2K+ 分辨率。

  • 1024x1024
  • 848x1264
  • 1264x848
  • 768x1376
  • 896x1200
  • 1376x768
  • 1200x896

image-09

GGUF量化版工作流

如果你使用的是低显存设备,则需要采用 Unsloth 给出的 GGUF 量化方案。Unsloth 的 GGUF 量化权重可以从 HuggingFace 中下载。

image-10

GGUF(Unsloth)相关仓库:

首先,你需要在 ComfyUI 中通过 ComfyUI Manager 安装 ComfyUI-GGUF 插件

image-11

安装后需要重启服务并刷新页面,从前面的网页中下载需要的量化模型,放入到 ComfyUI/models/unet/ 文件夹下。然后双击空白处,搜索 GGUF,点击 Unet Loader(GGUF),即可使用本地的量化模型;使用 CLIP Loader(GGUF) 节点加载文本编码器。

说明:Prompt Enhancer 的 GGUF 版本当前暂未提供。

优秀案例展示

表情包

一张彩色手绘风格的二次元 Q 版 LINE 表情包贴纸合集图。画面采用 4 行 6 列的网格布局,总共展示了 24 个半身像表情包。整体画风为可爱的日系 Q 版,线条简洁圆润,色彩明快,底色为纯白。所有表情包的主角为同一名二次元少女,她有着浅粉色的齐刘海短发,头顶戴着标志性的头饰:一对白色的毛茸茸猫耳,以及一个显眼的红色十字架蝴蝶结发带。她身穿简单的蓝白相间水手服。每个表情包旁边都配有手写体简体中文字符,文字带有白色描边或黑底,清晰可见。

第一行从左至右依次为:1. 少女面带微笑,举起右手挥手打招呼,旁边写着“早上好”。2. 少女戴着睡帽闭眼睡觉,鼻尖冒着睡眠泡泡,配文“晚安”。3. 少女歪着头,头上冒出巨大的红色问号,配文“啊?”。4. 少女双手合十,眼泪汪汪地看着前方,配文“拜托拜托”。5. 少女双手握拳,眼神坚定,背景带有集中线,配文“冲鸭!”。6. 少女无奈地摊开双手,叹了一口气,配文“绝了”。

第二行从左至右依次为:1. 少女单手捂嘴偷笑,周围有小花朵特效,配文“嘿嘿嘿”。2. 少女愤怒地拍打面前的桌子,头上带有生气的井字号,配文“生气了!”。3. 少女脸颊通红,双手捂住脸庞,头上冒着蒸汽,配文“太害羞了吧”。4. 少女戴着黑色像素风墨镜,双手抱胸,配文“无所畏惧”。5. 少女手里拿着一把放大镜凑近观察,配文“让我康康”。6. 少女双手捧着一杯珍珠奶茶用吸管喝,表情十分满足,配文“续命成功”。

第三行从左至右依次为:1. 少女平躺在地上,嘴里吐出白色的半透明灵魂,配文“不想努力了”。2. 少女满脸笑容,向前方举起大拇指点赞,配文“绝绝子”。3. 少女坐在地上,抱着一根虚线柱子大哭,眼泪飞溅,配文“带带我”。4. 少女手里拿着一把玩具塑料刀,嘴角露出黑化的腹黑笑容,配文“你再说一遍”。5. 少女全身变成灰色的石像状态,并带有裂纹,配文“心态崩了”。6. 少女开心地向上抛洒彩纸和花瓣,配文“好耶!”。

第四行从左至右依次为:1. 少女双手捧着手机快速打字,满头大汗,黑眼圈明显,配文“在肝了在肝了”。2. 少女双手递出一大束红玫瑰,脸颊微红,配文“送给你”。3. 少女惊恐地双手抱头,瞳孔缩小,背景变暗,配文“危!”。4. 少女双眼变成黄色的星星形状,充满期待,配文“尊嘟假嘟”。5. 少女单手托腮,眼神呆滞,嘴角流出一滴口水,配文“阿巴阿巴”。6. 少女背对画面挥手告别,转头流下一滴眼泪,配文“溜了溜了”。

image-13

这是一张竖版商业促销海报,采用高速商业摄影风格呈现。画面中央是一瓶覆盖着冷凝水珠的透明玻璃瓶,瓶身标签上印有“Berry Lemonade”字样,瓶内装有粉黄相间的果汁液体。瓶子周围环绕着动态飞溅的粉黄双色液体,形成漩涡状水花效果,水花中夹杂着飞溅的碎冰块、新鲜柠檬角和漂浮的覆盆子。背景为明亮的粉黄渐变色调,带有柔和的散景光斑效果。画面上方中央以粗体大写字母呈现 “SUMMER REFRESH” 和 “BERRY BLAST” 标题文字。左侧有一个发光的锯齿状星形徽章,内部写着 “NEW FLAVOR”。左下角有一个醒目的价格标签,显示 “$3.50”。底部中央是一个圆角矩形按钮,内有 “SHOP NOW” 字样。画面四周点缀着白色的手绘风格涂鸦星星和闪电状装饰线条。整体采用明亮的工作室灯光照明,背光效果使液体呈现出发光质感,画面具有 100mm 微距镜头的清晰锐利特征,文字排版醒目。

image-14

奢华香水产品摄影,一只精致透明玻璃香水瓶,金色瓶盖,摆放在光滑反射的大理石台面上,柔和自然光与戏剧性阴影结合,高端时尚广告风格,极简构图,画面干净高级,周围点缀新鲜花朵与水滴,浅景深,背景虚化,真实光影,超写实,8K 分辨率,电影级质感,锐利对焦,品牌感强烈。

image-15

这是一张包含四个连续分镜的电影分镜脚本图,采用上下排列的两行两列布局,展示了一个赛博朋克风格的悬疑惊悚片场景。每个分镜都配有黑色背景的标题栏和技术参数说明。

第一行左侧分镜标题为 FRAME 1 (SETUP): WIDE ESTABLISHING SHOT - 24mm LENS, DEEP DOF, CONTEMPORARY NEON RIM LIGHTING。画面展示了一条雨夜的赛博朋克街道,两侧是高耸的建筑,挂满了霓虹灯招牌,地面湿滑反光。一名身穿破旧风衣、戴着帽子的侦探背对镜头站在巷子中央,远处有模糊的行人剪影。

第一行右侧分镜标题为 FRAME 2 (BUILD): MEDIUM CLOSE-UP - 50mm LENS, SHALLOW DOF, RAIN DROPLETS CREATE NATURAL BOKEH。画面特写侦探的手部,他正在湿滑的鹅卵石地面上寻找一个发光的红色赛博数据板(cyber-deck)。背景中的雨滴和霓虹灯光形成了柔和的散景效果。

第二行左侧分镜标题为 FRAME 3 (TURN): OVER-THE-SHOULDER TRACKING SHOT - LOW ANGLE, DRAMATIC LIGHTING, MOG BLOWING IN。画面采用过肩镜头,侦探正抬头望向巷子尽头,那里矗立着一个巨大的机甲剪影。浓雾从巷子深处吹来,光线从侧面打来,营造出戏剧性的氛围。

第二行右侧分镜标题为 FRAME 4 (PAYOFF): EXTREME WIDE SHOT - 15mm LENS, WIDE ANGLE, SKY PULLBACK, EPIC TRAILER CINEMATOGRAPHY。画面拉远,展示了侦探在巨大机甲面前的渺小身影,机甲占据了画面的大部分空间,背景是城市的天际线和阴沉的天空。整体色调偏向冷峻的青色和橙色对比,具有典型的新黑色电影(Neo-noir)美学风格。

image-16

一幅极具叙事感的复古胶片摄影作品,场景设定在荒野公路旁的一处充满生活痕迹的旧式半废弃居所。室内,一盏金色的旧台灯散发着温暖的光,阳光穿过窗户格栅,在斑驳的木桌上投射出秩序井然的投影。桌上摆放着一份质感真实的简易三明治,旁边散落着一把棕毛漆刷和一个生锈的旧哑铃,窗框上静静悬挂着一枚充满岁月痕迹的旧护身符。窗外是长满翠绿色爬山虎的工业废墟断壁,绿意清透而富有层次。画面完美融合了 Kodachrome 64 的厚重红褐色调与 FUJI Astia 100F 的柔和高光表现,色彩浓郁但不溢出,带有极其细腻的银盐颗粒感和电影级别的空气透明度,展现出一种真实而忧郁的怀旧美学。

Z-Image Team

ComfyUI实践指南:手把手教你玩转ERNIE-Image! | Blog