Seedance 图生视频完整教程:让照片动起来的 AI 动画指南(2026)
用 Seedance 把任意照片变成视频:源图准备、参考素材与首帧图的区别、运动提示词写法、人脸一致性技巧,以及常见伪影的修复方法。
图生视频(i2v)是 Seedance 2.0 杠杆率最高、也最常被用错的功能。与其赌模型从文字里想象出什么,不如直接递给它一帧已经正确的画面——你的产品、你的脸、你的构图——把提示词全部花在运动和音频上。在我们的测试中,凡是必须长得像某个真实事物的主体,i2v 把"尝试次数到可用片段"的成本砍掉了大约一半。
本教程覆盖完整的 i2v 工作流:什么时候选它而不是文生视频、怎么准备源图、首帧图(init image)和 Seedance 的 12 素材参考系统有什么区别、产品/人像/风景三类场景的运动提示词套路,以及我们每天都在用的伪影修复方法。所有内容都可以在 Sora2U 的 Seedance 生成器上操作——传图、写运动、生成。
什么时候图生视频胜过文生视频
经验法则:首帧必须精确就用 i2v,运动本身是重点就用 t2v。具体来说,i2v 在这些场景下完胜:
- 真实产品必须保持可辨认——产品图、设备、服装。文字描述你的产品一定会跑偏,照片永远不会。
- 特定的脸或品牌视觉不容妥协——创始人肖像、连续出场的角色、锁定的色调。
- 静态素材已经花过钱了——产品摄影和房产实拍图能以边际成本变成视频。
- 构图要求精确——三分法布局、给文字叠加留的负空间、广告位的精确取景。
文生视频依然更适合运镜驱动的镜头(无人机后拉、跟拍)和需要模型自己构建世界的场景。那类场景请从 Seedance 提示词工程指南开始——那篇的四模块结构是本文的基础。
源图准备
Seedance 会继承源图的一切——锐度、噪点、偏色和所有失误。花 30 秒做准备,能省下三次重新生成:
- 分辨率:上传图至少要达到输出高度——1080p 视频对应 1080px 以上。模糊的图要在上传之前先放大修复;Seedance 会把模糊放大成涂抹感。
- 画幅比例:自己裁好目标比例(16:9、9:16 或 1:1)。自动裁剪会替你做决定,竖屏输出里经常把主体的头裁掉。
- 给运动留余量:在计划运动的方向留出 10–15% 的空白画面——推近需要可消耗的背景,横摇需要可去的地方。
- 干净的边缘:水印、边框、时间戳叠加在运动开始后会变成扭动的伪影。先清理掉——水印移除工具一遍就能处理。
- 单一明确主体:i2v 处理多主体层级的能力很差。五个同等权重主体的画面会产出五个各动一半的结果。
首帧图 vs 参考素材
Seedance 提供两种喂图方式,混淆它们是最常见的 i2v 错误。首帧图(init image)就是第一帧——视频从它开始播放。参考素材(单次生成最多 12 个:图片、视频片段、音频)是引导——它们告诉模型某个角色、产品或风格在整条视频里应该长什么样,但不规定第一帧。
| 首帧图 | 参考素材 | |
|---|---|---|
| 角色 | 字面意义上的第一帧 | 身份与风格引导 |
| 数量 | 一张 | 最多 12 个(图片、视频、音频) |
| 控制范围 | 第一帧的构图、取景、灯光 | 主体在全部帧里的外观 |
| 最适合 | 让一张特定照片动起来 | 跨镜头、跨片段的角色一致性 |
| 误用后果 | 约 5 秒后身份漂移 | 第一帧无视你的构图 |
专业做法是两者结合:首帧图锁定精确的开场画面,再加 2–3 张同一主体不同角度的参考照。主体转身或镜头移动时,靠的正是参考素材锁住身份——单凭第一帧,模型不可能知道产品背面长什么样。
一次生成,让你的第一张照片动起来
把图片上传到 Seedance 2.0,加一句运动提示词,得到最长 15 秒的 1080p 原生音频视频。
Affiliate 链接 — 你不会多付一分钱,我们可能获得佣金。
在图片之上写运动提示词
用 i2v 时,"长什么样"已经由图片回答了——再用文字复述画面不仅浪费 token,还会引来漂移。只描述会变化的东西:主体运动、镜头运动、音频。控制在约 40 词以内。
- 弱写法:"一位美丽的红发女子穿着黄色大衣站在秋天的桥上……"(复述图片——模型可能会"纠正"你本想保留的细节)。
- 强写法:"她转向镜头微笑,发丝随微风扬起。缓慢推近。音频:桥下河水声,远处鸟鸣。"
- 强写法(产品):"瓶身旋转 90 度,冷凝水珠沿玻璃滚落。固定机位。音频:轻微气泡声,环境休闲音乐。"
运动强度要显式校准——人像和产品用"细微""轻柔""缓慢";"动感强烈"留给经得起形变的场景。不加约束时,Seedance 默认的运动量比大多数商业镜头需要的更大。更多按 i2v 标签筛选的实测运动模板在提示词库的 Seedance 专区。
三套打法:产品、人像、风景
产品镜头
每条片段只动一个属性:一次旋转、一次开盖、一次倾倒、一次布料落定。镜头保持固定或缓慢推近,让原生音频去卖质感——一声咔哒、一阵气泡、一下布料摩擦。这是 2026 年最便宜的产品视频流水线:现成产品图进、5 秒主视觉片段出,按量付费口径不到一美元。完整的转化漏斗算账见电商视频营销指南。
人像
人脸最不容出错。只要求微运动:一次眨眼、一个缓慢的微笑、不超过 30 度的轻微转头、微风中的发丝。再加 1–2 张同一张脸的照片作参考素材,片段控制在 5–10 秒——超过 10 秒后身份保持能力会明显下降。配合台词时,Seedance 能让肖像对口型念你写的句子,但头部要保持接近正面,音素才干净。
风景
风景对运动的容忍度最高,正是慢速运镜发挥的地方:云层漂移、水面涟漪、草丛摇曳,再叠一个缓慢的横摇或推轨。环境音底床一定要写("松林里的风,远处的浪")——没有声音的风景片段看起来像动态壁纸,不像视频。这里 10–15 秒完全可行,因为没有需要保持的身份。
保持身份稳定
- 加 2–3 个不同角度的主体参考素材——这是对抗漂移影响最大的单项修复。
- 需要保脸时片段上限设在 10 秒;宁可生成两条短的剪在一起,不要一条长的。
- 单条片段内主体旋转控制在 90 度以内——完整转身会逼模型凭空发明看不见的那一面。
- 提示词里用一致的指代("参考图中的女性"),绝不要用文字重新描述她的长相。
- 做系列内容时,整批生成复用完全相同的参考素材组和源图风格。
不涉及身份的镜头如果需要更快更便宜的迭代,Sora2U 上 10 积分/秒的 Seedance 1.5 就是草稿档——完整积分算法见价格页。想知道 Seedance 的 i2v 和 Kling 比怎么样,看 Seedance 2.0 vs Kling 对比。
常见伪影与修复
- 片段中途脸变形——补充同一张脸的参考照;把片段缩短到 5–8 秒;降低要求的运动量。
- 手部和手指扭曲——源图里让手保持静止或出画;只在必要时才提示手部动作。
- 背景"呼吸"或晃动——运动提示词对这个场景太激进;加上"固定机位,细微运动"重跑。
- Logo 和标签文字融化——让带标签的一面朝向镜头,旋转控制在 90 度以内;主视觉镜头在后期把 logo 修回去。
- 第一帧偏色——Seedance 偶尔会给第 1 帧重新调色;把色调直接烘进源图,并注明"保持原始色调"。
- 主体静止只有镜头在动——你的提示词只描述了镜头运动;给主体一个明确的动词。
每周来自真实测试的 i2v 套路
我们每月让几百张静态图动起来,只发送经受住测试的运动提示词——每周一封。
常见问题
怎么用 AI 把照片变成视频?
在 Sora2U 生成器上把照片作为首帧图上传到 Seedance 2.0 这类图生视频模型,写一句只描述变化的运动提示词("她转身微笑,缓慢推近"),然后生成。片段最长 15 秒、1080p、带原生音频。
什么时候该用图生视频而不是文生视频?
凡是第一帧必须精确的场景都用 i2v——真实产品、特定人脸、锁定构图、或你已经拥有的静态素材。需要模型自己构建场景、或镜头运动本身是重点时用文生视频。
AI 视频的源图需要多高分辨率?
至少达到目标输出的高度——1080p 视频对应 1080px 以上——并提前裁剪到目标画幅(16:9、9:16 或 1:1)。模糊的图要在上传前先放大修复,因为 i2v 会把模糊放大成涂抹感。
AI 图生视频里怎么保持人脸一致?
首帧图搭配 2–3 张同一张脸不同角度的参考照,片段控制在 5–10 秒,头部旋转不超过 30 度,并且用"参考图中的人"指代,而不是用文字重新描述长相。
Seedance 能把产品图做成广告视频吗?
能——这是它最强的商业用途之一。上传产品图,每条片段只动一个属性(旋转、开盖、倾倒),镜头保持固定,让原生音频补上咔哒声或气泡声。一条 5 秒主视觉片段按量付费口径远低于一美元。
