ACE-Step 1.5 简介
ACE-Step 1.5 是 ACE-Step 系列开源多模态大模型的最新版本。在前代模型的坚实基础上,ACE-Step 1.5 在多模态理解能力方面实现了显著提升,同时保持了出色的推理效率。
该模型在海量图像-文本对数据上进行了预训练,并通过高质量指令数据进行了微调,使其在多个基准测试中达到领先水平,同时保持完全开源,供研究社区免费使用。

核心亮点
- 多模态能力:卓越的图像理解和推理能力
- 开源免费:可自由用于学术和商业用途
- 高效推理:针对 GPU 和 CPU 部署进行了优化
- 强劲性能:在多项 benchmarks 上与闭源模型竞争
模型规格
架构概述
ACE-Step 1.5 采用基于 transformer 的架构,主要组件如下:
| 组件 | 规格 |
|---|---|
| 语言模型主干 | Qwen2.5-32B |
| 视觉编码器 | ViT-H/14 (CLIP) |
| 投影层 | 多层感知机 |
| 上下文窗口 | 128K tokens |
| 精度 | FP16 / BF16 / INT8 |
参数量
模型总共包含约 320 亿参数,其中视觉编码器约占 30 亿参数,语言模型包含剩余的约 290 亿参数。
输入要求
- 图像分辨率:最高支持 448x448 像素
- 图像格式:JPEG、PNG、WEBP
- 文本输入:最多 128K tokens
- 多轮对话:完全支持
性能基准
ACE-Step 1.5 在多个标准基准测试中进行了评估,展现了竞争力强的性能:
视觉-语言基准测试
| 基准测试 | ACE-Step 1.5 | GPT-4o | Gemini 1.5 Pro |
|---|---|---|---|
| MME 分数 | 2158.9 | 2201.3 | 2189.7 |
| MM-Bench | 82.4 | 84.1 | 83.0 |
| SEED-Bench | 75.8 | 77.2 | 76.5 |
| MathVista | 65.3 | 68.9 | 67.1 |
推理能力
该模型在复杂推理任务中表现出色:
- 视觉问答:准确回答关于图像的问题
- 图表理解:解读复杂的视觉数据
- 文档处理:读取和理解图像中的文本
- 多图像推理:比较和推理多张图像
硬件要求
最低要求
使用量化模型进行基本推理:
| 组件 | 最低配置 |
|---|---|
| CPU | 8 核 (Intel i5 / AMD Ryzen 5) |
| 内存 | 16 GB |
| GPU | NVIDIA RTX 3060 (12GB 显存) |
| 存储 | 20 GB |
推荐配置
获得最佳性能:
| 组件 | 推荐配置 |
|---|---|
| CPU | 16 核 (Intel i7 / AMD Ryzen 7) |
| 内存 | 32 GB 或更高 |
| GPU | NVIDIA RTX 4090 (24GB 显存) 或 RTX 3090 (24GB 显存) |
| 存储 | 50 GB SSD |
GPU 显存要求
| 模式 | 显存需求 |
|---|---|
| FP16 推理 | 24-32 GB |
| BF16 推理 | 32 GB |
| INT8 量化 | 12-16 GB |
| INT4 量化 | 8-12 GB |
在有限硬件上运行
ACE-Step 1.5 支持多种量化技术,可在资源受限的设备上部署:
- GGUF 格式:提供 Q4_K_M、Q5_K_M、Q8_0 量化版本
- AWQ 格式:4-bit 量化权重
- Bitsandbytes:8-bit 和 4-bit 量化
安装与设置
前置要求
- Python 3.10 或更高版本
- PyTorch 2.0 或更高版本
- CUDA 11.8 或更高版本(用于 GPU 加速)
安装方法
方法 1:使用 pip
pip install transformers accelerate
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
方法 2:使用 Docker
docker run -it --gpus all ghcr.io/ace-step/ace-step-1.5:latest
快速开始
from transformers import AutoTokenizer
from transformers import AutoModelForCausalLM
import torch
# 加载模型
model = AutoModelForCausalLM.from_pretrained(
"ACE-Step/Ace-Step1.5",
device_map="auto",
torch_dtype=torch.bfloat16,
trust_remote_code=True
)
# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(
"ACE-Step/Ace-Step1.5",
trust_remote_code=True
)
# 准备输入
prompt = "详细描述这张图片"
image_path = "path/to/image.jpg"
# 生成响应
inputs = tokenizer(prompt, image_path, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
使用示例
图像描述
# 生成详细的图像描述
prompt = "请详细描述这张图片,包括物体、场景和任何值得注意的细节。"
视觉问答
# 回答关于图片的问题
prompt = "这张图片的主要主题是什么?请提供详细解释。"
图表和图形分析
# 分析图表和图形
prompt = "分析这张图表并解释它揭示的关键趋势和见解。"
多图像比较
# 比较多张图片
prompt = "比较这两张图片并识别它们之间的关键差异。"
最佳实践
提示工程
- 具体明确:清晰、详细的提示产生更好的结果
- 提供上下文:提供相关的背景信息
- 分步进行:将复杂任务分解为更小的步骤
- 格式要求:指定所需的输出格式
性能优化
- 使用量化:INT8 或 INT4 实现更快推理
- 批处理:尽可能一起处理多张图片
- GPU 选择:更高显存允许更大的批处理大小
- 内存管理:使用
nvidia-smi监控 VRAM 使用情况
应用场景
ACE-Step 1.5 适用于各种应用:
1. 内容创作
- 自动图像描述生成
- 社交媒体视觉内容分析
- 无障碍图像描述
2. 教育
- 教育内容创建
- 视觉学习材料
- STEM 教育支持
3. 商业
- 文档处理和分析
- 制造业质量控制
- 客户支持图像分析
4. 研究
- 科学图像分析
- 数据可视化解释
- 多模态研究
与其他模型的比较
ACE-Step 与其他开源模型
| 模型 | 参数量 | 视觉能力 | 许可证 |
|---|---|---|---|
| ACE-Step 1.5 | 32B | 卓越 | Apache 2.0 |
| LLaVA-1.6 | 7B | 良好 | MIT |
| IDEFICS-2 | 80B | 优秀 | Apache 2.0 |
| Pixtral | 12B | 良好 | Apache 2.0 |
资源和社区
官方资源
- GitHub 仓库: https://github.com/ACE-Step
- Hugging Face: https://huggingface.co/ACE-Step/Ace-Step1.5
- 论文: ACE-Step 1.5 技术报告
总结
ACE-Step 1.5 代表了开源多模态 AI 的重大进展。凭借其令人印象深刻的表现、开源许可和高效的推理能力,它是研究人员和开发者构建多模态应用的绝佳选择。
该模型的多功能性使其适用于各种应用,从内容创作到科学研究。随着开源 AI 生态系统不断发展,ACE-Step 1.5 作为社区的强大工具脱颖而出。