LTX-2 提示词完全指南:掌握AI视频生成的专业技巧
引言
LTX-2代表了AI视频生成技术的重大飞跃。这款由Lightricks开发的新一代模型可以生成原生4K分辨率、高达50帧每秒的高帧率视频,并实现音视频同步生成。与传统图像生成模型不同,LTX-2能够创建长达20秒的连续视频序列,成为内容创作者、电影制作人和数字艺术家的强大工具。

释放LTX-2全部潜力的关键在于掌握提示词工程。虽然图像生成模型对简单的描述性提示词反应良好,但视频生成需要根本不同的方法。你不仅仅是在描述静态场景——你是在编排运动、指导相机行为、协调时间流动。
本指南将教你专业创作者使用的高级技巧,用LTX-2生成电影级质量的视频。你将学习有效提示词的六大核心要素、不同视频长度的最佳实践,以及如何避免导致糟糕结果的常见陷阱。
理解LTX-2核心原则
"完整故事画面"理念
LTX-2提示词的基本原则简单而深刻:描绘一个从头到尾自然流动的完整故事画面。这不是列举视觉元素——而是描述随时间展开的连贯事件序列。
把你的提示词想象成一个迷你剧本。每个动作都应该自然地引向下一个,每个相机运动都应该有目的,每个元素都应该为整体叙事流动做出贡献。
电影化思维
LTX-2解读提示词的方式就像摄影师阅读导演笔记。它对以下语言反应最好:
- 相机行为: 镜头如何移动、聚焦什么、画面如何变化
- 时间进程: 动作的顺序和时机
- 氛围细节: 灯光、色彩、质感和情绪
- 物理精确性: 精确的动作、手势和空间关系
与图像生成的关键区别
| 图像生成 | 视频生成(LTX-2) |
|---|---|
| 静态构图 | 时间流动和运动 |
| 单一时刻 | 从头到尾的序列 |
| 描述性列表 | 叙事性段落 |
| 仅视觉元素 | 视觉+音频+运动 |
| 任何时态都可以 | 首选现在时 |
六大核心要素
每个有效的LTX-2提示词都应该包含这六个核心组成部分:
1. 镜头设定
使用与你期望的类型相匹配的电影摄影术语来定义初始取景和相机位置。
示例:
- "街对面的广角镜头"
- "饱经风霜的双手的极端特写"
- "繁华市场的鸟瞰图"
- "仰视高耸摩天大楼的低角度镜头"
专业提示: 将镜头术语与你的类型匹配。纪录片风格的提示词受益于手持语言,而电影作品则更适合使用"推轨"或"升降"等受控相机运动。
2. 场景设置
描述环境时要注意灯光、色彩调色板、质感和大气条件。
要包含的关键元素:
- 灯光质量: "黄金时段反射光"、"刺眼的头顶荧光灯"、"柔和的窗户光"
- 色彩调色板: "去饱和的蓝色和灰色"、"温暖的琥珀色调"、"鲜艳的原色"
- 大气条件: "浓厚的晨雾"、"阳光束中的尘埃粒子"、"小雨"
- 质感细节: "风化的砖墙"、"抛光的大理石地板"、"粗糙的木板"
示例:
"一个灯光昏暗的爵士俱乐部,温暖的琥珀色灯光汇聚在小圆桌上。香烟烟雾在蓝色舞台灯光束中懒洋洋地飘动。墙壁是裸露的砖块,黑暗而有质感。"
3. 动作描述
从头到尾自然地编写动作序列,使用现在时动词来传达动态运动。
最佳实践:
- 使用现在时: "走"、"转身"、"伸手"(而不是"走了"、"正在转身")
- 按顺序描述动作: "她举起杯子,送到嘴边,然后停顿"
- 包含小的物理细节: "他的手指在桌子上敲打"
- 展示因果关系: "门摆开,露出..."
不好的示例: "一个人很开心和兴奋"
好的示例: "一个女人的眼睛睁大,嘴巴惊讶地张开,她双手捂住脸,倒吸一口气"
4. 角色定义
用具体的物理细节、服装和通过肢体语言表达的情感线索来定义角色。
包含:
- 年龄和外貌: "一个30多岁的女性,短黑发"
- 服装细节: "穿着黄色雨衣和橡胶靴"
- 身体特征: "高大瘦削,棱角分明的五官"
- 通过动作表达情感: "她的肩膀下垂,头向下倾斜"
记住: 通过身体线索展示情感,而不是抽象标签。不要说"悲伤",而是描述"眼中涌出泪水,嘴唇颤抖"。
5. 镜头运动
指定相机如何移动、何时移动,以及运动后主体如何呈现。
常见相机运动:
- 静止: "三脚架固定"、"静止画面"
- 摇镜: "缓慢向左摇"、"快速向右摇"
- 俯仰: "向上倾斜显示"、"向下倾斜跟随"
- 推轨: "向前推进"、"缓慢后退"
- 跟踪: "沿着跟踪"、"从后面跟随"
- 升降: "上升并越过"、"从上方下降"
高级技巧: 将相机运动与主体动作联系起来: "当她伸手去拿门把手时,相机向前推进,然后在她的手在半空中停顿时保持稳定。"
6. 音频描述
详细说明环境声音、音乐、对话(用引号)和声音特征。
音频元素:
- 环境声音: "远处的交通嗡嗡声"、"鸟儿鸣叫"、"风吹树叶沙沙作响"
- 特定音效: "瓷砖上回响的脚步声"、"玻璃破碎"、"门吱吱作响"
- 音乐: "柔和的钢琴旋律"、"欢快的电子节拍"、"忧郁的弦乐"
- 对话: 使用引号: "有人在吗?"她喊道
- 声音特征: "用沙哑的耳语"、"带着浓重的法国口音"
示例:
"雨水拍打窗户的声音充满房间。时钟在背景中稳定地滴答作响。'我一直在等你,'他用低沉、有分寸的语气说。"
LTX-2提示词最佳实践
单段落连续描述
将提示词构建为一个流畅的段落,不要换行、列表或片段化的想法。这有助于LTX-2理解场景的连续性。
不好的结构:
- 湖上的渔夫
- 清晨
- 雾
- 缓慢划船
好的结构:
一个孤独的渔夫在日出前划过雾蒙蒙的湖面,船在水拍打船侧时轻轻吱吱作响。相机在头顶滑行,跟踪他稳定的进展。他的灯笼投射出温暖的光圈,在涟漪中反射,而芦苇在远处的岸边轻轻摇曳。
使用现在时动词
用现在时描述所有动作,以有效传达动态运动。
示例:
- ✅ "走"、"倾斜"、"闪烁"、"上升"
- ❌ "走了"、"正在倾斜"、"已经闪烁"、"将要上升"
明确相机行为
清楚地描述相机的视角、角度、运动和速度。不要假设模型会推断相机行为。
模糊: "厨房里的一个女人"
明确: "相机从肩膀高度的中景特写开始,一个女人站在厨房柜台前切蔬菜。相机缓慢向前推进,聚焦在她的手上,刀在半空中停顿。"
精确物理细节
使用小的、可测量的动作和具体手势来丰富角色互动。
泛泛: "她看起来很惊讶"
精确: "她的眉毛抬起约两毫米,眼睛睁大,嘴唇微微张开,她急促地吸气。"
氛围环境描述
通过感官细节描绘情绪:
灯光示例:
- "刺眼的头顶荧光灯投射出锐利的阴影"
- "透过薄纱窗帘过滤的柔和黄金时段光线"
- "闪烁的烛光在墙上创造舞动的阴影"
氛围示例:
- "薄雾在地面上翻滚,部分遮住脚踝"
- "尘埃粒子在阳光束中清晰可见地漂浮"
- "蒸汽从咖啡杯中升起,消散在凉爽的空气中"
时间流畅性连接词
使用连接词确保动作自然过渡:
连接词: "当"、"然后"、"同时"、"之前"、"之后"、"当...时"
示例:
"一对电梯门在太空船走廊内滑开,薄雾从地板通风口滚出。当相机保持在静止的广角镜头时,一个高大的身影穿过雾霭向前迈步。然后相机横向滑动,跟随身影沿着金属走廊的步伐。"
高级技巧
4K视频的六部分结构化提示词
为了获得最佳的4K视频生成效果,使用这种结构化格式:
1. 场景锚点: 位置、时间、氛围
- 示例: "黎明时分雾蒙蒙的高山湖泊,轻雾,玻璃般的水面"
2. 主体+动作: 谁/什么和一个动词
- 示例: "一艘红色独木舟滑过,单人划船者穿着黄色雨衣"
3. 相机+镜头: 运动、焦距、光圈、取景
- 示例: "缓慢向右推轨,50mm,f/2.8,中广角,稳定设备"
4. 视觉风格: 色彩科学、调色、胶片模拟
- 示例: "柔和对比度,丰富的原色,柯达2383印刷外观"
5. 运动和时间提示: 速度、帧率意图、快门感觉
- 示例: "自然运动模糊,50fps感觉,180°快门等效"
6. 防护栏: 要避免什么
- 示例: "无闪烁,无高频图案,无文字叠加"
镜头和快门语言
结合具体的相机术语来控制运动连贯性和真实感:
焦距示例:
- "24mm广角" - 广阔的环境感
- "50mm标准" - 自然视角
- "85mm人像" - 压缩的亲密感
- "200mm长焦" - 压缩景深,孤立主体
快门描述:
- "180°快门等效" - 电影运动模糊
- "自然运动模糊" - 真实运动
- "快速快门,清晰运动" - 运动/动作感
50 FPS流畅运动关键词
为了在50fps下实现流畅运动,使用这些描述词:
相机稳定性:
- "稳定推轨"
- "平滑稳定器"
- "三脚架固定"
- "恒速摇镜"
运动质量:
- "自然运动模糊"
- "流畅运动"
- "受控运动"
- "稳定跟踪"
避免用于50fps:
- "手持混乱"(导致变形)
- "抖动镜头"
- "不规则运动"
长镜头提示词策略(最长20秒)
对于接近20秒最大长度的视频,将提示词当作一个迷你场景:
结构:
- 场景标题: 地点和时间
- 简短描述: 基调和氛围
- 调度: 主体和相机运动序列
- 对话/提示: 括号中的表演注释
15秒镜头示例:
内景。咖啡店 - 早晨。温暖、繁忙的氛围,播放着柔和的爵士乐。相机从一个女人的手环绕陶瓷杯的特写开始,蒸汽在她的手指间升起。当她举起杯子时,相机缓慢后退到中景,露出她喝了一口并凝视窗外的脸。她的表情从疲惫转为沉思。相机继续后退,现在显示她身后的整个咖啡馆场景——其他顾客、正在工作的咖啡师、透过大窗户照射进来的晨光。[她轻轻放下杯子,叮当声在环境对话中几乎听不见。]
专业提示: 从特写开始然后移出。这有助于模型保留面部和材质细节,因为更广的镜头可能会软化相似度。
音视频同步技巧
LTX-2同时生成音频和视频。使用这些技巧来改善同步:
时间提示:
- "在重拍上" - 将动作与音乐同步
- "在第二次军鼓击打时" - 精确时机
- "蒸汽在2.5秒时爆发" - 特定时间
动作规律性:
- "恒速摇镜" - 可预测的运动
- "有节奏的脚步" - 规律间隔
- "稳定呼吸" - 一致的模式
示例:
"鼓手的手在重拍上击打军鼓,鼓棒以完美的节奏弹起。相机在特写中保持稳定,每次击打都在小练习室中产生尖锐的爆裂声并回响。"
LTX-2擅长的领域
LTX-2在以下领域表现出色:
电影化构图
- 受控的相机运动(推轨、升降、跟踪镜头)
- 明确定义的景深
- 经典电影摄影技术
- 特定类型的视觉语言
情感人物时刻
- 微妙的面部表情
- 自然的肢体语言
- 真实的情感反应
- 角色互动
氛围场景
- 环境叙事
- 天气效果(雾、雨、雪)
- 灯光情绪
- 有质感的环境
清晰的镜头语言
- 明确的镜头类型
- 有目的的运动
- 一致的取景
- 专业技术
风格化美学
- 胶片模拟外观
- 调色风格
- 特定类型的视觉效果
- 艺术处理
精确灯光控制
- 有动机的光源
- 戏剧性阴影
- 色温
- 光质描述
多语言配音
- 自然对话传递
- 口音规格
- 声音特征
- 支持多种语言
常见错误避免
没有视觉线索的情感标签
❌ 错误: "一个悲伤的女人坐在桌子旁"
✅ 正确: "一个女人坐在桌子旁,肩膀向前耷拉,眼睛向下看,手指沿着空咖啡杯的边缘描画"
文字和Logo
LTX-2无法可靠地生成可读文字或Logo。避免需要以下内容的提示词:
- 屏幕文字
- 品牌Logo
- 带有特定文字的标牌
- 书面文件
复杂物理或混乱运动
模型在以下方面表现不佳:
- 多个物体碰撞
- 液体模拟
- 粒子效果
- 混乱的人群场景
- 复杂的机械运动
场景过载
太多元素会造成混乱:
❌ 过载: "一个繁忙的市场,有20个摊贩、玩耍的孩子、奔跑的狗、经过的汽车、飞翔的鸟和背景中的游行"
✅ 聚焦: "一个市场摊贩在金属碗中摆放五颜六色的香料,两个顾客在附近浏览。相机缓慢地横摇过展示台,环境喧哗声充满空气。"
冲突的灯光逻辑
避免矛盾的光源:
❌ 冲突: "明亮的正午阳光与戏剧性的月光阴影"
✅ 一致: "刺眼的正午阳光在市场摊位正下方投射出短而锐利的阴影"
过于复杂的指令
保持提示词聚焦和清晰:
❌ 太复杂: "从广角开始然后放大,同时向左摇镜但也向上倾斜并将画面旋转45度,而主体同时向后和向前走"
✅ 清晰: "相机从广角镜头开始,然后缓慢向前推进到中景特写,主体向相机走来"
实战示例
示例1: 自然场景 - 湖上渔夫
提示词:
一个孤独的渔夫在日出前划过雾蒙蒙的湖面,船在水拍打船侧时轻轻吱吱作响。相机在头顶以缓慢的空中跟踪镜头滑行,从后面和稍微上方跟随他稳定的进展。他的灯笼投射出温暖的光圈,在轻柔的涟漪中反射,而高大的芦苇在远处的岸边摇曳。远处的鸟叫声在水面上回响,雾气缓慢地在玻璃般的表面上翻滚,部分遮住地平线。桨有节奏地浸入和升起,水滴落下并在静止的水中创造扩展的圆圈。
为什么有效:
- 清晰的相机运动: "头顶以缓慢的空中跟踪镜头滑行"
- 时间流动: 动作从划船到涟漪到雾气自然进展
- 氛围细节: 雾、日出时间、雾气运动
- 音频元素: 吱吱作响的船、拍打的水、鸟叫声
- 精确的物理细节: 桨浸入、水滴落下、圆圈扩展
示例2: 角色特写 - 厨房场景
提示词:
一个女人在下午透过附近窗户照射进来的光线中站在厨房柜台前切蔬菜。相机从肩膀高度的中景特写开始,然后缓慢向前推进聚焦在她的手上。她的右手握着刀,左手轻轻按在砧板上。当她听到身后走廊传来吱吱声时,她的眉毛微微抬起,刀刃在半空中停顿。相机以浅景深保持稳定,捕捉她手腕的紧张和上方悬挂的铜锅的静止。环境厨房声音——冰箱嗡嗡声、远处的交通——营造出安静的家庭氛围。
为什么有效:
- 具体的相机进程: 中景特写到特写推进
- 精确的物理细节: 手的位置、眉毛运动、刀刃停顿
- 通过动作表达情感: 听到声音、停顿、紧张
- 景深规格: 浅景深聚焦
- 环境音频: 冰箱、交通,营造氛围
示例3: 科幻场景 - 太空船走廊
提示词:
一对金属电梯门在太空船走廊内滑开,薄雾从地板通风口滚出。相机从静止的广角镜头开始,显示一个穿着白色制服的高大身影穿过雾霭向前迈步。蓝色重点灯沿着走廊墙壁排列,在抛光的地板上投射几何图案。当身影向相机走来时,他们的脚步以空洞的金属声回响。相机以平滑的跟踪镜头横向滑动,跟随他们经过照明的墙板和密封的门道的步伐。低沉的机械嗡嗡声充满背景,被附近系统偶尔的电子哔哔声打断。
为什么有效:
- 类型适当的语言: "金属"、"走廊"、"制服"、"系统"
- 清晰的相机编排: 静止广角到平滑跟踪镜头
- 科幻氛围: 雾、蓝光、几何图案、电子声音
- 空间进程: 电梯到走廊到墙板到门道
- 音频分层: 脚步声、机械嗡嗡声、电子哔哔声
不同时长视频技巧
短视频(5秒以内)
聚焦于单一动作或时刻:
结构:
- 一个清晰的动作
- 简单的相机运动或静止镜头
- 最小的场景复杂性
示例:
"一个咖啡杯从茶碟上举起,蒸汽以细螺旋上升。特写,浅景深,柔和的晨光。"
中等视频(5-10秒)
发展一个有开头、中间和结尾的短序列:
结构:
- 2-3个连接的动作
- 一个相机运动
- 清晰的进程
示例:
"一个女人打开一扇木门,在门口停顿,阳光从她的剪影旁照射过去,然后走进去。相机缓慢向前跟踪,跟随她从外部到内部的运动。"
长视频(10-20秒)
创建一个有多个节拍的迷你叙事:
结构:
- 多个动作序列
- 相机运动变化
- 环境转换
- 角色发展
示例:
"一个厨师进入繁忙的厨房,在锅中升起蒸汽时穿梭于准备台之间。相机以平滑的跟踪镜头跟随,当他到达他的工作台,系上围裙,并开始以熟练的精确度切蔬菜。其他厨师在背景中工作,创造出烹饪活动的分层场景。"
总结
掌握LTX-2提示词就是像电影制作人一样思考。每个提示词都应该讲述一个完整的故事,具有清晰的视觉进程、有目的的相机工作和将你的愿景变为现实的氛围细节。
关键要点
- 电影化思维: 使用专业的相机语言和镜头术语
- 展示而非告知: 通过身体动作表达情感,而非抽象标签
- 自然流动: 用时间连接词连接动作以实现平滑进程
- 具体明确: 精确的物理细节创造更令人信服的结果
- 音频分层: 环境声音、对话和音乐增强沉浸感
- 匹配复杂度与时长: 短视频需要聚焦;长视频需要结构
迭代的重要性
LTX-2奖励实验。不要期望第一次尝试就获得完美结果。尝试变化:
- 调整相机运动
- 优化动作序列
- 实验灯光描述
- 测试不同的时间节奏
进一步学习
要继续提高你的LTX-2提示词技能:
- 学习电影摄影术语和技术
- 分析专业电影场景的相机工作和构图
- 练习为不同类型编写提示词
- 加入LTX社区分享技巧并向他人学习
- 实验模型的不同版本(Fast、Pro、Ultra)以了解它们的优势
官方资源:
- LTX官方指南: https://ltx.io/model/model-blog/prompting-guide-for-ltx-2
- LTX Studio: https://ltx.studio
- 社区论坛: https://ltx.io/community
本指南基于LTX官方文档和社区最佳实践。有关最新更新和功能,请访问LTX官方网站。