本文是「AI 视频生成」专栏的开篇。后续会逐节展开,把每一个环节写到能落地的程度。
一、背景:影视行业正式进入 AI 时代
倒回两年前,“AI 生成视频”还是一句调侃——人物会糊成抽象画,物体会无端融化,三秒一个大变形。但模型的进化曲线真的很陡。
去年 9 月 30 日,OpenAI 发布 Sora 2,一夜之间所有时间线都被它的样片占满。它真正的突破不在分辨率,而在物理一致性、镜头语言、角色稳定度——它第一次让人觉得”模型像在导演”。也是从那一刻起,AI 视频从”玩具”切到了”工具”,大量的 AI 漫剧、短剧、品牌广告涌出来。
仅仅四个月后,2026 年 2 月,字节跳动放出 Seedance 2.0 正面对刚 Sora 2。镜头表现、视觉精度、长镜头连贯性都被往前推了一档,“模型导演能力”这个词被反复提起。这之后影视行业算是正式进入 AI 时代——独立创作者一个人能做出过去一个团队的活。
机会窗口已经打开,问题只剩下:怎么做?
二、整张工作流:一图看完
抛开模型名词,做 AI 视频本质是一条流水线:
剧本 → 分段脚本 → 人物图 / 场景图 → 分镜 → 提示词 → 生成视频
这条线上的每一步都在为下一步做约束:
- 剧本 决定故事方向;
- 分段脚本 决定节奏与长度;
- 人物图 / 场景图 决定”长什么样”,是后续所有镜头的视觉基线;
- 分镜 决定镜头怎么走;
- 提示词 把上面所有约束翻译成模型能听懂的话;
- 生成与剪辑 把镜头拼成片子。
这条流水线的核心好处是——任何一步出问题,可以只重做那一步。这听起来很朴素,但它是新人最容易踩的坑:直接一个长 prompt 丢进模型,看到结果不对就推倒重来,最后把两小时熬成两天。
下面我们以一个 30 秒的赛博朋克短片《纸条》为例,把六步全部走一遍。
三、第一步:剧本
剧本不是用来”念”的,是用来给后续每一个环节定调的。一份合格的 AI 视频剧本只需要回答四个问题:
- 这个片子讲什么?(一句话主题)
- 出现哪些人?长什么样?
- 故事发生在哪里?什么氛围?
- 大概多长?情绪曲线怎么走?
实例《纸条》剧本(30 秒):
雨夜,赛博朋克城市。少女林夏在街角等一个人——一个她只见过一次的人。手里那张写着电话的纸条已经被雨水打湿,墨迹一点点晕开。她抬头看霓虹招牌,水洼里倒映着”2049”的字样。远处,一个模糊的背影出现在街道尽头。她笑了。
节奏:前 10 秒铺氛围(孤独、潮湿、电流感),中间 12 秒推进情绪(焦虑、期待),最后 8 秒释放(重逢、暖色侵入)。
这段文字看起来很短,但它已经明确了:一个主角、两个场景(街角与街道尽头)、三段情绪、一个题眼(被打湿的纸条)。这就够了。
新人最常犯的错:把剧本写成台词剧本。AI 视频里台词是最便宜的——配音可以单独做。你需要写的是画面。
四、第二步:分段脚本
把剧本切成”场次”。一场 = 一个连续场景里发生的一段事,时长一般 3–10 秒。
| 场次 | 时长 | 内容 | 情绪 |
|---|---|---|---|
| S1 | 8s | 街角全景,雨,霓虹亮起 | 孤独 |
| S2 | 6s | 少女特写,雨水从帽檐滑落 | 凝视 |
| S3 | 5s | 手部特写,纸条被打湿 | 焦虑 |
| S4 | 6s | 镜头横移,露出街道尽头的背影 | 期待 |
| S5 | 5s | 两人相对,暖色灯光打入 | 释放 |
切完之后会发现总时长 30 秒、5 个镜头,节奏在心里就有了。
经验:单镜头不要超过 8 秒。一是当前主流视频模型的稳定生成上限大多在 5–10 秒之间;二是镜头长了观众会出戏,镜头切换本身就是节奏。
五、第三步:人物图 / 场景图
这是最容易被新人跳过、却最致命的一步。
如果你直接让模型生成五段视频,很可能拿到五个长得不一样的女主角:一会儿黑长直、一会儿短发、一会儿换了件衣服。原因很简单:视频模型的”记忆”在单次生成里,跨片段它不认识你的角色。
解决办法:先用图片模型固定形象。
- 人物图:用 Midjourney、即梦或者 Flux 跑出主角的多角度图(正面、侧面、3/4 侧),保存为参考图。
- 场景图:把街角、街道尽头、招牌特写各跑一张定调图,作为后续视频的”色板”。
人物图提示词示例(写实风)
A 19-year-old Asian girl, long straight black hair, pale skin,
wearing a translucent yellow raincoat over a dark hoodie,
a silver pendant on the neck, calm but slightly anxious eyes,
neutral background, studio soft light, photo realistic, 35mm.
跑出满意的一张后,把它作为后续每一段视频生成的”角色参考图”输入。现在主流的视频模型都支持参考图(Sora 2 的 character reference、Seedance 2.0 的角色锚点、可灵的”图生视频”),这是保持一致性的唯一靠谱手段。
六、第四步:分镜
分镜表是把脚本翻译成”镜头序列”的中间件。每一行未来都会变成一条视频片段。
写分镜的最低要求:镜号 / 景别 / 机位 / 运镜 / 画面描述 / 时长。可以用表格、Notion、甚至记事本,工具不重要,结构重要。
下面是《纸条》开头三个镜头的分镜:
| 镜号 | 景别 | 机位 | 运镜 | 画面 | 时长 |
|---|---|---|---|---|---|
| S1-01 | 中景 | 平视 1.6m | 缓推近 | 雨夜街角,少女抬头看霓虹招牌 | 5s |
| S1-02 | 特写 | 俯角 30° | 固定 | 手指停在湿透的纸条上,墨迹晕开 | 3s |
| S1-03 | 远景 | 仰角 | 横移 | 招牌一块块亮起,尽头一个背影 | 6s |
写得越具体,模型越不容易跑偏。景别 + 机位 + 运镜 + 时长,这四件套缺一不可。
七、第五步:提示词
终于到很多人以为是”全部”的环节——但你已经看到了,提示词只是工作流的第五步。
一条好的视频提示词,至少包含 6 个要素:
| 槽位 | 例子 |
|---|---|
| 主体 | 穿黄色雨衣的少女,黑色长发,手里攥着一张被打湿的纸条 |
| 场景 | 深夜的城市街角,霓虹招牌、湿漉漉的柏油路面 |
| 动作 | 抬头,水滴顺着帽檐滑落,目光锁定招牌 |
| 镜头 | 中景,平视高度 1.6m,从远处缓推近 2 秒 |
| 光影 | 霓虹粉紫主光,柏油地面反光为副光,高对比、低饱和 |
| 风格 | 赛博朋克写实摄影,35mm 定焦,氛围参考《银翼杀手 2049》 |
把它们拼成一段连贯的英文(或中文,看模型偏好),交给模型。S1-01 的最终提示词大概长这样:
Medium shot, slow dolly-in over 2 seconds.
A 19-year-old Asian girl in a translucent yellow raincoat,
long black hair wet from rain, looking up at a neon sign across the street.
Cyberpunk city corner at midnight, wet asphalt reflecting magenta and cyan
neon, distant car lights bokeh. Cinematic, high contrast, low saturation,
35mm film grain, mood reference: Blade Runner 2049.
Duration 5s.
小技巧:把”参考图”和”风格关键词”拆开。参考图管”长什么样”,关键词管”怎么拍”。两者职责清晰,模型才不会打架。
怎么处理”抽到烂卡”
不要试图通过反复改提示词去抢救一个一直不对的镜头。抽 3 次还不对,回去改前一步:
- 角色脸型不稳 → 回到人物图,换一张更清晰的多角度参考;
- 场景氛围不对 → 回到场景图,重新调色调;
- 动作怪 → 回到分镜,把动作描述拆得更细;
- 镜头不像电影 → 回到分镜,写明确的运镜参数(推、拉、摇、移、跟)。
这就是文章一开头强调的——任何一步出问题,只重做那一步。
八、第六步:生成与剪辑
到这一步基本是体力活了:
- 按分镜逐条生成,每条镜头通常抽 3–5 次取最好的一条。
- 在剪辑软件里按场次顺序拼接(剪映、达芬奇、Premiere 都行)。
- 配音用 ElevenLabs / 豆包语音 / 阶跃星辰;BGM 用 Suno;音效用 11Labs SFX 或者素材库。
- 调色统一一遍——AI 生成的素材色调往往不一致,统一调色是最后的”质感开关”。
- 加字幕、片头、片尾,导出。
预算参考(按一条 30 秒短片估算):视频生成 10–30 元、配音 0–5 元、BGM 0–10 元、音效 0–5 元。一个人一天能产出 1–2 条质量不错的成片。
九、给新人的三条建议
- 先把工作流跑通,再追求画面。第一支片子做 15 秒就够了,目标是把流程走完一遍。
- 建立你自己的角色库和场景库。这是 AI 创作者的”资产”——下一个项目可以直接复用。
- 盯着模型更新。这个领域 3 个月一变,今天的最优解 90 天后就是过时的。订阅几个稳定输出的同行账号,比刷推荐流有效得多。
接下来
这篇是专栏的入口。后面我会把每一步独立写成一篇,配上更多模型对比、提示词模板、踩坑记录:
- 第二篇:怎么写一份”模型友好”的剧本
- 第三篇:人物一致性的五种解决方案对比
- 第四篇:从分镜到提示词的翻译技巧
- 第五篇:Sora 2 vs Seedance 2.0 vs 可灵 vs Runway——同一条镜头四模型实测
要的话点专栏链接收藏,我更一篇你来看一篇。