用 AI 做视频，和传统拍片其实是一回事

这篇是「AI 视频生成」专栏的第一篇。不讲虚的，就是把整个流程摊开给你看。

传统影视剧是怎么做的

先别急着打开任何 AI 工具。花两分钟想想，传统拍片是怎么拍的。

一部片子，不管长短，流程大致是这样：

剧本 → 分镜 → 美术/选角 → 拍摄 → 剪辑

每一步都在给下一步铺路。剧本定故事，分镜定画面，美术和选角定角色长什么样、场景什么氛围，拍摄把分镜变成素材，剪辑把素材拼成片子。

这条线有一个很朴素的好处：哪一步出了问题，退回那一步改就行了。不会因为一个镜头不对，把整个项目推倒重来。

好，记住这个流程。下面你会发现，AI 做视频的流程跟它一模一样。

AI 做视频，套路完全一样

AI 影视剧的创作流程拆开来看，长这样：

剧本 → 分段 → 人物图/场景图 → 分镜 → 提示词 → 生成

你把两套流程放一起对比，会发现根本就是同一件事。分镜还是分镜，美术变成了用图片模型出角色图和场景图，拍摄变成了写提示词让视频模型生成镜头。换了个工具而已。

唯一的区别是什么？

目前最强的视频模型，一次最多生成 15 秒。

Sora 2 是这样，Seedance 2.0 也是这样。15 秒，就是现在的天花板。

这就意味着，做任何超过 15 秒的视频，你必须把它拆开。一个 30 秒的片子，拆成两个 15 秒。一个一分钟的，拆成四个 15 秒。每个 15 秒独立走一遍完整流程。

听起来麻烦？其实习惯了反而更顺手。因为每个 15 秒都是一个独立的”小项目”，出问题只影响这一小段，不会连累整个片子。

举一个具体的例子

别整那些虚的，直接拿一个 30 秒的视频来拆。

假设你想做一段末日题材的短片：海边一栋废弃的别墅，黄昏，一个女幸存者独自站在露台上，手里攥着一张褪色的老照片，望着海面出神。

30 秒，怎么拆？

拆成两个 15 秒。

第一个 15 秒：环境铺陈。露台全景，散落的杂物，海面反射着金色落日，远处有废弃的高楼剪影。
第二个 15 秒：人物情绪。镜头推进到女幸存者身上，她低头看照片，抬头望向海面，远处隐约传来一声汽笛。

每个 15 秒都是下面这套固定流程走一遍。两个 15 秒走两遍，完事。

每个 15 秒的固定流程

这个流程分五步，每个 15 秒都这么走。

第一步：把这一段写成画面描述

不用写成正规剧本，你自己看得懂就行。写清楚三件事：谁、在哪、干嘛。

比如第一个 15 秒（环境铺陈）：

黄昏，金色逆光从海面方向打过来。一栋废弃的现代风格海边别墅露台，地面散落着碎玻璃、泛黄的旧报纸、一把倒下的藤椅。无边泳池边缘已经长出青苔，池水浑浊。远处是被藤蔓覆盖的高楼废墟剪影，背景是橙红色的海面落日。整个画面笼罩在”文明消亡后”的氛围里，安静，但有一种残存的美。

这就够了。你写的是画面，不是台词。

第二步：出人物图和场景图

这步很多人会跳过，但它是翻车率最高的一环。

你不先固定形象，后面两个 15 秒生成出来的女主角大概率长得不一样——第一个镜头短发，第二个镜头变长头发，第三个镜头衣服颜色都换了。视频模型没有跨片段记忆，它每次生成都是重新来。

所以要先出图。生图模型现在最强的是 GPT-Image-2，直接让它出你想要的角色和场景。

场景图提示词，按第一个 15 秒的环境描述来写就行，用中文：

废弃的现代风格海边别墅露台，黄昏时刻，金色逆光从海面方向照射过来。露台地面散落着碎玻璃、泛黄的旧报纸、一把倒下的藤椅。无边泳池边缘长满青苔，池水浑浊呈绿色。远处是藤蔓覆盖的高楼废墟剪影，背景是橙红色的海面落日。写实摄影风格，35mm 镜头，电影感，高对比度。

角色图提示词：

一个 25 岁的亚洲女性幸存者，利落的短发有些凌乱，脸上有几道灰痕，眼神疲惫但仍有光。身穿一件旧的军绿色风衣，领口磨损，里面是深灰色背心。脖子上挂着一串用弹壳改的吊坠。站在废弃别墅露台栏杆边，海风微微吹动头发和衣角。写实摄影风格，35mm 人像，逆光，电影感。

场景图出个两三张，角色图出正面、侧面、半身各一张。这些图是你后面所有镜头的”视觉锚点”。

第三步：写分镜

把 15 秒的画面描述拆成具体镜头。每个镜头写清楚：景别、机位、怎么动、拍什么、几秒。

比如第一个 15 秒拆成这样：

镜头	时长	景别	机位	运镜	画面内容
1	5s	远景	平视，1.5m高度	固定→缓推	露台全景，海面落日为背景，废弃高楼剪影，氛围铺陈
2	4s	中近景	低机位，30cm高度	固定微推	地面杂物：碎玻璃反光、泛黄报纸被风吹动一角、倒下的藤椅
3	3s	中景	平视，1.2m高度	横移	从泳池边缘往露台栏杆方向匀速横移，经过散落的杂物，镜头最终停在栏杆边
4	3s	特写	平视，1.6m高度	固定	无边泳池水面，浑浊的绿色池水上飘着一片枯叶，落日倒影在水面上跳动

四个镜头加起来 15 秒。写得多具体，后面生成就少跑偏。

第四步：写提示词

这是最关键的一步。把分镜表上的每一行，翻译成 Seedance 2.0 能听懂的中文提示词。

每条提示词的写法，参照下面这个格式：

@图片1 是主要人物·女幸存者
@图片2 是场景·废弃海边别墅露台
@图片3 是场景·海面落日

【0-5s | 第1镜 | 远景露台全景→海面落日 | 固定缓推】黄昏，金色逆光从海面方向铺满整个废弃海边别墅露台。镜头从露台中央缓慢向前推进约1米。前景是一把倒下的藤椅，椅面上积了一层灰。左侧无边泳池边缘青苔斑驳，池水浑浊呈绿色，水面上漂着一片枯叶。露台地面散落着碎玻璃碴和几张泛黄的旧报纸，报纸边角被海风轻轻掀动。远处天际线是一排藤蔓覆盖的高楼废墟剪影，橙红色落日在海面上拉出一条长光带。空气中飘着细小的尘埃粒子。末日后的荒芜感，但夕阳光让画面带有一丝残存的温度。无台词。

拆开来看，这个格式就两块：

开头声明参考图。

@图片1、@图片2、@图片3——告诉模型这些参考图分别对应什么。角色图管角色的脸、发型、衣服，场景图管整个环境的色调和结构。模型会把这些图”拼”在一起，加上你的文字描述，生成最终画面。

方括号里写拍摄指令。

【时间 | 镜号 | 景别和画面主体 | 运镜方式】——这几个信息决定了镜头怎么动、拍什么、拍多久。

方括号后面的正文，就是纯粹的画面描述。把你能想到的细节全写进去：光从哪来、地面什么质感、空气里有什么、什么东西在动。写得越细，模型越知道你想要什么。

再看第二个镜头的提示词：

@图片1 是主要人物·女幸存者
@图片2 是场景·废弃海边别墅露台

【0-4s | 第2镜 | 低机位地面杂物特写→碎玻璃报纸 | 固定微推】极低视角贴近露台地面，镜头以约0.2m/s缓慢向前微推。前景锐利呈现一块碎裂的玻璃碴，玻璃边缘反射着金色夕阳光。玻璃旁边是一张泛黄的旧报纸，日期模糊不清，报纸一角被海风轻轻掀动又落下。藤椅倒在地上，椅腿投出长长的影子。地面有干涸的暗色水渍痕迹。光线从海面方向的逆光打过来，整个画面笼罩在暖金色调里，灰尘粒子在光柱中缓慢浮动。末日废墟的质感，写实摄影风格，无台词。

到了镜头 3，因为画面里会出现女主角了，所以要把角色参考图也带上：

@图片1 是主要人物·女幸存者
@图片2 是场景·废弃海边别墅露台
@图片3 是场景·海面落日

【0-3s | 第3镜 | 中景露台横移→女幸存者背影入画 | 匀速横移】中景，机位高度约1.2m。镜头从泳池边缘向右匀速横移，经过地面散落的杂物——碎玻璃反光一闪而过，泛黄报纸边角微微颤动。镜头继续横移，一截褪色的藤椅扶手入画又出画，最终停在露台栏杆前。一个穿旧军绿色风衣的女性背影站在栏杆边，短发被海风吹得微微飘动，她面朝大海方向，站姿疲惫但脊背挺直。夕阳在她身上打出金色的轮廓光。画面安静，无台词。

镜头 4 不需要角色，但需要场景和水面：

@图片3 是场景·海面落日

【0-3s | 第4镜 | 特写无边泳池水面→枯叶落日倒影 | 固定】固定机位，特写无边泳池的浑浊水面。水面呈暗绿色，池底隐约可见沉积的灰泥。一片枯黄的叶子漂在水面上，随着微小的水波轻轻旋转。橙红色的落日在水面上投下一个抖动的倒影，光斑随水纹向外扩散。远处海面在失焦中融化成一片模糊的金色。逆光，水面隐约反射出露台栏杆的轮廓。安静、缓慢、末日后的残存诗意，无台词。

几个要点：

@图片声明一定要写清楚，哪个是角色、哪个是场景。模型靠这个区分参考图的用途。
方括号里的运镜要具体。别写”推镜”，写”镜头缓慢向前推进约 1 米”或者”以约 0.2m/s 向前微推”。有具体数据，模型跑出来的镜头运动更稳。
画面描述别写情绪词。不要写”孤独""悲伤""绝望”。写具体的画面：地面有碎玻璃、报纸被风吹动、灰尘在光柱里漂浮。让画面本身传递情绪，而不是用形容词去喊。

然后把这些提示词和对应的参考图一起丢进即梦。

第五步：生成视频

打开即梦官网，用 Seedance 2.0 的全能参考功能。

全能参考最多一次上传 10 张参考图。你在第二步出的角色图和场景图，全部丢进去——角色正面、角色侧面、露台全景、海面落日，都放进去。然后在提示词里用 @图片N 把它们声明清楚。

一条镜头通常抽个 3 到 5 次，选最好的那条。抽了三把还不对怎么办？别死磕提示词，往后退一步——人物脸崩了就去换参考图，氛围不对就去重新出场景图，动作怪就回去改分镜。

这就是前面说的：哪步出问题退回哪步改。

两个 15 秒都按这套流程走完，你就有了若干条视频片段，扔进剪辑软件拼起来就行了。

剪辑收尾

到这一步基本是体力活：

按分镜顺序把片段拖进剪辑软件（剪映够用了）
配音：ElevenLabs、豆包语音都行，哪个顺手用哪个
BGM：Suno 生成，或者直接找素材库
调色：AI 生成的素材色调大概率不统一，统一拉一遍调色，质感瞬间上来
加字幕，导出

30 秒的片子，一个人，一天搞定。成本大概几十块钱。

几句实在话

做 AI 视频，最容易被绕进去的一件事就是跟提示词死磕。一个镜头怎么抽都不对，就开始怀疑是不是自己 prompt 写得不够好，然后花两个小时反复改措辞。

大概率不是提示词的问题。退回去看看你的参考图是不是不够清晰，分镜是不是写得太笼统，场景图氛围是不是跑偏了。提示词是最后一步，前面每一步的坑，提示词都填不了。

另外，工具更新太快了。我今天写 GPT-Image-2 和 Seedance 2.0，可能过三个月又是另一套东西。工具会换，但这个拆解流程不会换。把流程刻在脑子里，换什么工具你都能干活。

后面几篇我会把每一步掰开细写——剧本怎么写模型才听话、角色一致性到底怎么搞、分镜怎么翻译成提示词、几个主流模型同一条镜头的横向对比。

感兴趣的话收藏专栏，写一篇你看一篇。