ComfyUI实践指南:手把手教你玩转ERNIE-Image!
最近,全新文生图开源模型——ERNIE-Image正式与大家见面了。它基于 8B 参数的 DiT 架构,在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格,因此尤其适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。
ERNIE-Image开源SOTA!消费级显卡搞定顶级渲染、高密度文本绘图
- ERNIE-Image - SFT模型:更强的通用能力和指令忠实度,推理步数 50 步
- ERNIE-Image-Turbo - 极速模型:通过 DMD 和 RL 优化,仅需 8 步即可实现更快的速度和更高的美学质量
今天,我们带来一篇超友好的 ComfyUI 实战教程,手把手带你完成 ERNIE-Image 的部署与使用。即使是新手,也能轻松上手!
ComfyUI相关仓库
- 魔搭:https://modelscope.cn/models/Comfy-Org/ERNIE-Image/
- Huggingface:https://huggingface.co/Comfy-Org/ERNIE-Image
- Comfy Cloud:https://links.comfy.org/4cse938
- 工作流下载:https://github.com/Comfy-Org/workflow_templates/blob/main/templates/image_ernie_image.json
安装ComfyUI与权重下载
1.1 网页版安装
网页版安装需要拉取最新版本的 ComfyUI 仓库并配置相关的 Python 环境。
### 拉取最新的ComfyUI仓库:
git clone https://github.com/Comfy-Org/ComfyUI.git
### 配置ComfyUI运行的环境并安装最新的包含有ERNIE-Image的template:
cd ComfyUI && pip install -r requirements.txt && pip install comfyui-workflow-templates==0.9.56
1.2 客户端安装
下载 ComfyUI 最新版本 v0.19.1:
https://www.comfy.org/zh-cn/download

1.3 模型权重下载
让 ERNIE-Image-Turbo 在服务器端/本地顺利运行,你需要在 ComfyUI 中正确配置四个核心组件:扩散模型、文本编码器、Prompt Enhancer 和变分自编码器(VAE)。从 HuggingFace 下载 ERNIE-Image 核心模型权重文件,模型地址:
https://huggingface.co/Comfy-Org/ERNIE-Image
模型权重放置在 ComfyUI 的相应目录下:
- 扩散模型(Diffusion Model)
- 文件:
ernie-image.safetensors/ernie-image-turbo.safetensors - 路径:
ComfyUI/models/diffusion_models/
- 文件:
- 文本编码器(Text Encoder)
- 文件:
ministral-3-3b.safetensors - 路径:
ComfyUI/models/text_encoders/
- 文件:
- Prompt 优化器(Prompt Enhancer)
- 文件:
ernie-image-prompt-enhancer.safetensors - 路径:
ComfyUI/models/text_encoders/
- 文件:
- 变分自编码器(VAE)
- 文件:
flux2-vae.safetensors - 路径:
ComfyUI/models/vae/
- 文件:
将上述四个文件分别放入 ComfyUI 的对应目录后,即可开启 ComfyUI 工作流实践。

标准流工作
当前 ComfyUI 新版本已经支持了 ERNIE-Image 的标准工作流,用户可以直接使用官方推荐工作流来获得最佳画质和速度。
2.1 加载模型节点
在 ComfyUI 中,从左侧模板库选择“Ernie Image Turbo:文生图”或者“Ernie Image:文生图”,系统会自动加载已放入对应目录的核心组件。

如果前述文件已经放入正确位置后,相关模型会自动加载,无需手动配置,直接输入 Prompt,即可启动生图。

需要特别关注的是:当前 PE 节点作为 ERNIE-Image 的默认选项,其使用的加载器和 Text Encoder 加载器都是使用的 CLIPLoader 来加载模型权重。
- Text Encoder 节点加载的权重文件:
ministral-3-3b.safetensors或者ernie-image-prompt-enhancer.safetensors - Prompt Enhancer 节点加载的权重文件:
ernie-image-prompt-enhancer.safetensors
2.2 PE设置
ERNIE Image 最适合长、详细、结构良好的提示——更丰富的描述往往会产生更好的生成质量、更精确的教学保真度,以及更忠实地呈现复杂的布局或叙事内容。在实践中,非常建议用户开启 PE,官方节点默认是开启 PE。

PE 节点的参数设置可以通过点击节点图右上角打开子图进一步设置,关键参数配置如下:
- 最大长度(
max_length):设置为 1536~2048,如果设置过小,可能会导致长文本输入信息存在遗漏的风险,但也不建议设置太大。 - 采样模式:开启。
- 温度系数(
temperature):设置为 0.6。 top_p:设置为 0.8。thinking mode:关闭。
2.3 采样器设置
打开子图后,同样可以看到采样器的相关配置项,具体配置推荐如下:
- 步数(
steps):ERNIE-Image-Turbo 版本建议设置为 8,ERNIE-Image 版本建议设置为 50。 - 引导系数(CFG):ERNIE-Image-Turbo 版本建议设置为 1.0,ERNIE-Image 版本建议设置为 4.0。
- 采样器(Sampler):推荐使用
euler。 - 调度器(Scheduler):推荐
sgm_uniform或者默认的simple。

2.4 分辨率设置
ERNIE-Image / ERNIE-Image-Turbo 模型在下列分辨率优化效果比较好,当前避免直接生成 2K+ 分辨率。
- 1024x1024
- 848x1264
- 1264x848
- 768x1376
- 896x1200
- 1376x768
- 1200x896

GGUF量化版工作流
如果你使用的是低显存设备,则需要采用 Unsloth 给出的 GGUF 量化方案。Unsloth 的 GGUF 量化权重可以从 HuggingFace 中下载。

GGUF(Unsloth)相关仓库:
- ERNIE-Image GGUF(扩散模型):
https://huggingface.co/unsloth/ERNIE-Image-GGUF - ERNIE-Image-Turbo GGUF(扩散模型):
https://huggingface.co/unsloth/ERNIE-Image-Turbo-GGUF - Text Encoder GGUF:
https://huggingface.co/unsloth/Ministral-3-3B-Instruct-2512-GGUF
首先,你需要在 ComfyUI 中通过 ComfyUI Manager 安装 ComfyUI-GGUF 插件。

安装后需要重启服务并刷新页面,从前面的网页中下载需要的量化模型,放入到 ComfyUI/models/unet/ 文件夹下。然后双击空白处,搜索 GGUF,点击 Unet Loader(GGUF),即可使用本地的量化模型;使用 CLIP Loader(GGUF) 节点加载文本编码器。
说明:Prompt Enhancer 的 GGUF 版本当前暂未提供。
优秀案例展示
表情包
一张彩色手绘风格的二次元 Q 版 LINE 表情包贴纸合集图。画面采用 4 行 6 列的网格布局,总共展示了 24 个半身像表情包。整体画风为可爱的日系 Q 版,线条简洁圆润,色彩明快,底色为纯白。所有表情包的主角为同一名二次元少女,她有着浅粉色的齐刘海短发,头顶戴着标志性的头饰:一对白色的毛茸茸猫耳,以及一个显眼的红色十字架蝴蝶结发带。她身穿简单的蓝白相间水手服。每个表情包旁边都配有手写体简体中文字符,文字带有白色描边或黑底,清晰可见。
第一行从左至右依次为:1. 少女面带微笑,举起右手挥手打招呼,旁边写着“早上好”。2. 少女戴着睡帽闭眼睡觉,鼻尖冒着睡眠泡泡,配文“晚安”。3. 少女歪着头,头上冒出巨大的红色问号,配文“啊?”。4. 少女双手合十,眼泪汪汪地看着前方,配文“拜托拜托”。5. 少女双手握拳,眼神坚定,背景带有集中线,配文“冲鸭!”。6. 少女无奈地摊开双手,叹了一口气,配文“绝了”。
第二行从左至右依次为:1. 少女单手捂嘴偷笑,周围有小花朵特效,配文“嘿嘿嘿”。2. 少女愤怒地拍打面前的桌子,头上带有生气的井字号,配文“生气了!”。3. 少女脸颊通红,双手捂住脸庞,头上冒着蒸汽,配文“太害羞了吧”。4. 少女戴着黑色像素风墨镜,双手抱胸,配文“无所畏惧”。5. 少女手里拿着一把放大镜凑近观察,配文“让我康康”。6. 少女双手捧着一杯珍珠奶茶用吸管喝,表情十分满足,配文“续命成功”。
第三行从左至右依次为:1. 少女平躺在地上,嘴里吐出白色的半透明灵魂,配文“不想努力了”。2. 少女满脸笑容,向前方举起大拇指点赞,配文“绝绝子”。3. 少女坐在地上,抱着一根虚线柱子大哭,眼泪飞溅,配文“带带我”。4. 少女手里拿着一把玩具塑料刀,嘴角露出黑化的腹黑笑容,配文“你再说一遍”。5. 少女全身变成灰色的石像状态,并带有裂纹,配文“心态崩了”。6. 少女开心地向上抛洒彩纸和花瓣,配文“好耶!”。
第四行从左至右依次为:1. 少女双手捧着手机快速打字,满头大汗,黑眼圈明显,配文“在肝了在肝了”。2. 少女双手递出一大束红玫瑰,脸颊微红,配文“送给你”。3. 少女惊恐地双手抱头,瞳孔缩小,背景变暗,配文“危!”。4. 少女双眼变成黄色的星星形状,充满期待,配文“尊嘟假嘟”。5. 少女单手托腮,眼神呆滞,嘴角流出一滴口水,配文“阿巴阿巴”。6. 少女背对画面挥手告别,转头流下一滴眼泪,配文“溜了溜了”。

这是一张竖版商业促销海报,采用高速商业摄影风格呈现。画面中央是一瓶覆盖着冷凝水珠的透明玻璃瓶,瓶身标签上印有“Berry Lemonade”字样,瓶内装有粉黄相间的果汁液体。瓶子周围环绕着动态飞溅的粉黄双色液体,形成漩涡状水花效果,水花中夹杂着飞溅的碎冰块、新鲜柠檬角和漂浮的覆盆子。背景为明亮的粉黄渐变色调,带有柔和的散景光斑效果。画面上方中央以粗体大写字母呈现 “SUMMER REFRESH” 和 “BERRY BLAST” 标题文字。左侧有一个发光的锯齿状星形徽章,内部写着 “NEW FLAVOR”。左下角有一个醒目的价格标签,显示 “$3.50”。底部中央是一个圆角矩形按钮,内有 “SHOP NOW” 字样。画面四周点缀着白色的手绘风格涂鸦星星和闪电状装饰线条。整体采用明亮的工作室灯光照明,背光效果使液体呈现出发光质感,画面具有 100mm 微距镜头的清晰锐利特征,文字排版醒目。

奢华香水产品摄影,一只精致透明玻璃香水瓶,金色瓶盖,摆放在光滑反射的大理石台面上,柔和自然光与戏剧性阴影结合,高端时尚广告风格,极简构图,画面干净高级,周围点缀新鲜花朵与水滴,浅景深,背景虚化,真实光影,超写实,8K 分辨率,电影级质感,锐利对焦,品牌感强烈。

这是一张包含四个连续分镜的电影分镜脚本图,采用上下排列的两行两列布局,展示了一个赛博朋克风格的悬疑惊悚片场景。每个分镜都配有黑色背景的标题栏和技术参数说明。
第一行左侧分镜标题为 FRAME 1 (SETUP): WIDE ESTABLISHING SHOT - 24mm LENS, DEEP DOF, CONTEMPORARY NEON RIM LIGHTING。画面展示了一条雨夜的赛博朋克街道,两侧是高耸的建筑,挂满了霓虹灯招牌,地面湿滑反光。一名身穿破旧风衣、戴着帽子的侦探背对镜头站在巷子中央,远处有模糊的行人剪影。
第一行右侧分镜标题为 FRAME 2 (BUILD): MEDIUM CLOSE-UP - 50mm LENS, SHALLOW DOF, RAIN DROPLETS CREATE NATURAL BOKEH。画面特写侦探的手部,他正在湿滑的鹅卵石地面上寻找一个发光的红色赛博数据板(cyber-deck)。背景中的雨滴和霓虹灯光形成了柔和的散景效果。
第二行左侧分镜标题为 FRAME 3 (TURN): OVER-THE-SHOULDER TRACKING SHOT - LOW ANGLE, DRAMATIC LIGHTING, MOG BLOWING IN。画面采用过肩镜头,侦探正抬头望向巷子尽头,那里矗立着一个巨大的机甲剪影。浓雾从巷子深处吹来,光线从侧面打来,营造出戏剧性的氛围。
第二行右侧分镜标题为 FRAME 4 (PAYOFF): EXTREME WIDE SHOT - 15mm LENS, WIDE ANGLE, SKY PULLBACK, EPIC TRAILER CINEMATOGRAPHY。画面拉远,展示了侦探在巨大机甲面前的渺小身影,机甲占据了画面的大部分空间,背景是城市的天际线和阴沉的天空。整体色调偏向冷峻的青色和橙色对比,具有典型的新黑色电影(Neo-noir)美学风格。

一幅极具叙事感的复古胶片摄影作品,场景设定在荒野公路旁的一处充满生活痕迹的旧式半废弃居所。室内,一盏金色的旧台灯散发着温暖的光,阳光穿过窗户格栅,在斑驳的木桌上投射出秩序井然的投影。桌上摆放着一份质感真实的简易三明治,旁边散落着一把棕毛漆刷和一个生锈的旧哑铃,窗框上静静悬挂着一枚充满岁月痕迹的旧护身符。窗外是长满翠绿色爬山虎的工业废墟断壁,绿意清透而富有层次。画面完美融合了 Kodachrome 64 的厚重红褐色调与 FUJI Astia 100F 的柔和高光表现,色彩浓郁但不溢出,带有极其细腻的银盐颗粒感和电影级别的空气透明度,展现出一种真实而忧郁的怀旧美学。