百度最新开源的文生图模型 ERNIE-Image 与 Z-Image/Qwen-Image2 孰强孰弱(真实质感/文本渲染/自然风光/尺寸兼容/显存占用/推理速度)
最近百度开源了文生图模型 ERNIE-Image,ComfyUI 也在第一时间进行了支持,官方介绍该模型具有如下特点:
- 自带提示语增强:可将简短的用户输入扩展为更丰富的结构化描述
- 文本渲染:在处理密集、长篇幅且对布局要求较高的文本时表现尤为出色,因此是海报、信息图表、用户界面图像和其他文字密集型视觉内容的理想选择
- 指令遵循能力强
- 风格覆盖范围广
结论
- 在复杂文字渲染/海报生成领域,qwen-image-2 > Ernie-image > z-image
- 在追求真实质感方面,综合考虑图片的真实性和提示语遵循性时,选择 z-image
- 在景观生成领域,qwen-image-2 > z-image > Ernie-image
- 在部分尺寸兼容场景下,Ernie-image 会出现畸形肢体,尺寸兼容性稍显薄弱,弱于 z-image
- 显存占用 z-image(16g) 优于 Ernie-image(21g)
- 推理速度 z-image(8s) 优于 Ernie-image(12s)(生成 1280*1280 的照片)
- 提示语增强能力测试下来不如 qwen3.5 的增强能力
效果展示
文本渲染
prompt:
这是一幅中国风手绘风格的杭州两日禅意人文之旅行程导览双语海报,整体采用淡雅米黄色仿古宣纸背景,四角饰有传统回纹边框;画面中央以一条飘逸的云纹卷轴丝带贯穿连接两天行程,上方大标题为“杭州·两日禅意人文之旅”(“Hangzhou: A Two-Day Journey of Zen, Culture, and Humanity”),副标题为“祈福·山水·寻梦”(“Prayer · Landscape · Dream-Seeking”);左侧为“第一天:灵山祈福,登高求财”(“Day 1: Praying at Ling Shan, Ascending for Prosperity”),依次展示:“07:30 抵达灵隐”(“Arrive at Lingyin Temple”),配灵隐寺山门(牌匾写着"灵隐寺")与香炉袅袅青烟图,文字说明“灵隐寺还愿,进香礼佛,诚心祈愿”(“Go to Lingyin Temple to fulfill a vow, offer incense, and pray sincerely”);“10:30 永福寺寻幽”(“Explore Yongfu Temple’s Serenity”),配古朴寺院掩映于苍翠古树间图,文字说明“最美寺庙,静心宋韵”(“The most beautiful temple, serene with Song charm”);“12:00 素斋休整”(“Vegetarian Meal & Rest”),配一碗热气腾腾素面与小茶盏置于竹编托盘上图;“16:00 龙井问茶”(“Tea Tasting at Longjing”),配层叠翠绿茶园与紫砂壶向青瓷杯倾注茶汤图,文字说明“梅家坞茶园慢饮”(“Leisurely tea tasting, Tea Garden Meijiawu”);右侧为“第二天:西湖水墨,南宋旧梦”(“Day 2: Ink-Wash West Lake, Dreams of the Southern Song”),依次展示:“09:00 西湖游船”(“Boat Tour on West Lake”),配乌篷船泛舟湖上、三潭印月石塔倒影水中图,文字说明“泛舟赏三潭印月”(“Boating to view the Three Pools Mirroring the Moon”);“12:00 湖畔午餐”(“Lakeside Lunch”),文字说明“体验楼外楼餐厅” (“Experience Lou Wai Lou Restaurant”),配一盘色泽红亮的鱼,上面淋酱汁;“14:00 苏堤/浴鹄湾”(“Su Causeway / Yuhu Bay”),配拱桥横跨碧波、垂柳依依图,文字说明“漫步长堤或寻秘境”(“Stroll along the causeway or discover hidden gems”);底部设“出行小贴士”板块(“Travel Tips”),含灯泡图标及三项提示:“住宿 龙翔桥/凤起路便捷”(“Accommodation: Longxiang Bridge / Fengqi Road for convenience”),“交通 地铁+单车最佳”(“Transport: Metro + bike is optimal”),“季节 早春注意保暖”(“Season: Dress warmly in early spring”),每项前分别配床、自行车+地铁、雪花+樱花图标;全图文字均采用楷体书法风格,中英文严格对应排布——中文在上、英文紧随其下,整体构图疏密有致、意境悠远,充满文人画气息与禅意生活美学。
Ernie-image:

qwen-image-2:

z-image:

结论:
- 在文字渲染领域,qwen-image-2 依然是顶尖的存在,可以实现和响应极其复杂的提示语
- qwen-image-2 > Ernie-image > z-image
真实质感
prompt:
一位中国女性大学生,性别女,年龄约20岁左右,超短发发型略带柔和文艺感,发丝自然垂落遮住部分脸颊,整体风格偏向假小子(tomboy)气质。她肤色冷白,五官清秀,表情略显羞涩又带着一丝拽劲,嘴角微微歪起,流露出痞帅又青春的神态。身穿一字领露肩短袖上衣,露出一侧肩膀,身材匀称。画面为近景自拍构图,人物占据主体位置,背景清晰可见宿舍环境:上铺床铺铺着白色床上三件套,旁边是一张桌面物品摆放整齐的书桌,以及木制柜子与抽屉。整体采用手机拍摄,光线为均匀柔和的环境光,色调自然真实,画面清晰明亮,氛围轻快鲜活,充满日常生活的青春气息。
Ernie-image:

z-image:

结论:
- Ernie-image 与 z-image 真实质感相当
- z-image 语义遵循性优于 Ernie-image,比如要求“露出一侧肩膀”,Ernie-image 露出了两侧肩膀;要求“表情略显羞涩又带着一丝拽劲,嘴角微微歪起”,z-image 表现的就不错。
自然纹理
prompt:
一条翠绿色的河流蜿蜒流经葱郁峡谷,两岸岩壁覆盖着厚实的苔藓与茂密蕨类植物,数道瀑布自高处飞泻而下,水雾缭绕。正午阳光透过浓密树冠,在河面投下斑驳跃动的光点,整体氛围湿润清新,充满原始丛林的蓬勃生机。图中无人物、文字或人工痕迹。
Ernie-image:

qwen-image-2:

z-image:

结论:个人仍感觉 Qwen-Image-2 好一些,看上去有一层景观滤镜;z-image 次之;Ernie-image 的色彩比 z-image 好一些,但是水面上的光泽有点假;而且画面整体布局来看,前两者要优于 Ernie-image
宏大场景渲染
prompt:
“赛博朋克风格”,地府背景,诡异。神明世界里狂风呼啸,空间扭曲变形,巨大的、面目模糊的唐三藏身影自发光(法天象地的气势,神圣庄严的法相),双手合十,望向渺小的众多百鬼,散发着丝丝杀意,风卷着残叶,仿佛要将面前的一切都摧毁。昏暗,梦幻,史诗,压迫感,雾霾,低饱和度,低亮度,巨人,巨物恐惧,(俯视超广角),压迫感的构图,电影级构图,视觉冲击,8K画质,超清,极致细节,极致刻画,清晰的线条,高对比,大师级别的作品。尖锐特写,无限细节,极繁主义。
Ernie-image

z-image

结论:这个场景 z-image 优于 Ernie-image,后者开始显油腻了
任意尺寸照片
prompt:
一位中国女性大学生,性别女,年龄约20岁左右,超短发发型略带柔和文艺感,发丝自然垂落遮住部分脸颊,整体风格偏向假小子(tomboy)气质。她肤色冷白,五官清秀,表情略显羞涩又带着一丝拽劲,嘴角微微歪起,流露出痞帅又青春的神态。身穿一字领露肩短袖上衣,露出一侧肩膀,身材匀称。画面为近景自拍构图,人物占据主体位置,背景清晰可见宿舍环境:上铺床铺铺着白色床上三件套,旁边是一张桌面物品摆放整齐的书桌,以及木制柜子与抽屉。整体采用手机拍摄,光线为均匀柔和的环境光,色调自然真实,画面清晰明亮,氛围轻快鲜活,充满日常生活的青春气息。
Ernie-image:

z-image:

结论: Ernie-image 在这种不适合尺寸的场景下出现畸形,尺寸兼容性略差
模型下载
text_encoders 文本编码器
下载文件 https://huggingface.co/Comfy-Org/ERNIE-Image/resolve/main/text_encoders/ministral-3-3b.safetensors,将其放置到 ComfyUI/models/text_encoders/ 下
diffusion_models 扩散模型
ernie 提供了两个扩散模型,一个是 SFT 模型,一个是 Turbo 模型,官方介绍后者速度更快且美观度更高,本文我们先来测试 Turbo 模型。
下载文件 https://huggingface.co/Comfy-Org/ERNIE-Image/resolve/main/diffusion_models/ernie-image-turbo.safetensors,将其放置到 ComfyUI/models/diffusion_models/ 下
vae
下载文件 https://huggingface.co/Comfy-Org/ERNIE-Image/resolve/main/vae/flux2-vae.safetensors,将其放置到 ComfyUI/models/vae/ 下