Seedance 图生视频完整教程:让照片动起来的 AI 动画指南(2026)

用 Seedance 把任意照片变成视频:源图准备、参考素材与首帧图的区别、运动提示词写法、人脸一致性技巧,以及常见伪影的修复方法。

2026年5月27日约 13 分钟Sora2U 团队

图生视频(i2v)是 Seedance 2.0 杠杆率最高、也最常被用错的功能。与其赌模型从文字里想象出什么,不如直接递给它一帧已经正确的画面——你的产品、你的脸、你的构图——把提示词全部花在运动和音频上。在我们的测试中,凡是必须长得像某个真实事物的主体,i2v 把"尝试次数到可用片段"的成本砍掉了大约一半。

本教程覆盖完整的 i2v 工作流:什么时候选它而不是文生视频、怎么准备源图、首帧图(init image)和 Seedance 的 12 素材参考系统有什么区别、产品/人像/风景三类场景的运动提示词套路,以及我们每天都在用的伪影修复方法。所有内容都可以在 Sora2U 的 Seedance 生成器上操作——传图、写运动、生成。

什么时候图生视频胜过文生视频

经验法则:首帧必须精确就用 i2v,运动本身是重点就用 t2v。具体来说,i2v 在这些场景下完胜:

  • 真实产品必须保持可辨认——产品图、设备、服装。文字描述你的产品一定会跑偏,照片永远不会。
  • 特定的脸或品牌视觉不容妥协——创始人肖像、连续出场的角色、锁定的色调。
  • 静态素材已经花过钱了——产品摄影和房产实拍图能以边际成本变成视频。
  • 构图要求精确——三分法布局、给文字叠加留的负空间、广告位的精确取景。

文生视频依然更适合运镜驱动的镜头(无人机后拉、跟拍)和需要模型自己构建世界的场景。那类场景请从 Seedance 提示词工程指南开始——那篇的四模块结构是本文的基础。

源图准备

Seedance 会继承源图的一切——锐度、噪点、偏色和所有失误。花 30 秒做准备,能省下三次重新生成:

  • 分辨率:上传图至少要达到输出高度——1080p 视频对应 1080px 以上。模糊的图要在上传之前先放大修复;Seedance 会把模糊放大成涂抹感。
  • 画幅比例:自己裁好目标比例(16:9、9:16 或 1:1)。自动裁剪会替你做决定,竖屏输出里经常把主体的头裁掉。
  • 给运动留余量:在计划运动的方向留出 10–15% 的空白画面——推近需要可消耗的背景,横摇需要可去的地方。
  • 干净的边缘:水印、边框、时间戳叠加在运动开始后会变成扭动的伪影。先清理掉——水印移除工具一遍就能处理。
  • 单一明确主体:i2v 处理多主体层级的能力很差。五个同等权重主体的画面会产出五个各动一半的结果。

首帧图 vs 参考素材

Seedance 提供两种喂图方式,混淆它们是最常见的 i2v 错误。首帧图(init image)就是第一帧——视频从它开始播放。参考素材(单次生成最多 12 个:图片、视频片段、音频)是引导——它们告诉模型某个角色、产品或风格在整条视频里应该长什么样,但不规定第一帧。

首帧图参考素材
角色字面意义上的第一帧身份与风格引导
数量一张最多 12 个(图片、视频、音频)
控制范围第一帧的构图、取景、灯光主体在全部帧里的外观
最适合让一张特定照片动起来跨镜头、跨片段的角色一致性
误用后果约 5 秒后身份漂移第一帧无视你的构图

专业做法是两者结合:首帧图锁定精确的开场画面,再加 2–3 张同一主体不同角度的参考照。主体转身或镜头移动时,靠的正是参考素材锁住身份——单凭第一帧,模型不可能知道产品背面长什么样。

一次生成,让你的第一张照片动起来

把图片上传到 Seedance 2.0,加一句运动提示词,得到最长 15 秒的 1080p 原生音频视频。

Affiliate 链接 — 你不会多付一分钱,我们可能获得佣金。

在图片之上写运动提示词

用 i2v 时,"长什么样"已经由图片回答了——再用文字复述画面不仅浪费 token,还会引来漂移。只描述会变化的东西:主体运动、镜头运动、音频。控制在约 40 词以内。

  • 弱写法:"一位美丽的红发女子穿着黄色大衣站在秋天的桥上……"(复述图片——模型可能会"纠正"你本想保留的细节)。
  • 强写法:"她转向镜头微笑,发丝随微风扬起。缓慢推近。音频:桥下河水声,远处鸟鸣。"
  • 强写法(产品):"瓶身旋转 90 度,冷凝水珠沿玻璃滚落。固定机位。音频:轻微气泡声,环境休闲音乐。"

运动强度要显式校准——人像和产品用"细微""轻柔""缓慢";"动感强烈"留给经得起形变的场景。不加约束时,Seedance 默认的运动量比大多数商业镜头需要的更大。更多按 i2v 标签筛选的实测运动模板在提示词库的 Seedance 专区

三套打法:产品、人像、风景

产品镜头

每条片段只动一个属性:一次旋转、一次开盖、一次倾倒、一次布料落定。镜头保持固定或缓慢推近,让原生音频去卖质感——一声咔哒、一阵气泡、一下布料摩擦。这是 2026 年最便宜的产品视频流水线:现成产品图进、5 秒主视觉片段出,按量付费口径不到一美元。完整的转化漏斗算账见电商视频营销指南

人像

人脸最不容出错。只要求微运动:一次眨眼、一个缓慢的微笑、不超过 30 度的轻微转头、微风中的发丝。再加 1–2 张同一张脸的照片作参考素材,片段控制在 5–10 秒——超过 10 秒后身份保持能力会明显下降。配合台词时,Seedance 能让肖像对口型念你写的句子,但头部要保持接近正面,音素才干净。

风景

风景对运动的容忍度最高,正是慢速运镜发挥的地方:云层漂移、水面涟漪、草丛摇曳,再叠一个缓慢的横摇或推轨。环境音底床一定要写("松林里的风,远处的浪")——没有声音的风景片段看起来像动态壁纸,不像视频。这里 10–15 秒完全可行,因为没有需要保持的身份。

保持身份稳定

  1. 加 2–3 个不同角度的主体参考素材——这是对抗漂移影响最大的单项修复。
  2. 需要保脸时片段上限设在 10 秒;宁可生成两条短的剪在一起,不要一条长的。
  3. 单条片段内主体旋转控制在 90 度以内——完整转身会逼模型凭空发明看不见的那一面。
  4. 提示词里用一致的指代("参考图中的女性"),绝不要用文字重新描述她的长相。
  5. 做系列内容时,整批生成复用完全相同的参考素材组和源图风格。

不涉及身份的镜头如果需要更快更便宜的迭代,Sora2U 上 10 积分/秒的 Seedance 1.5 就是草稿档——完整积分算法见价格页。想知道 Seedance 的 i2v 和 Kling 比怎么样,看 Seedance 2.0 vs Kling 对比

常见伪影与修复

  • 片段中途脸变形——补充同一张脸的参考照;把片段缩短到 5–8 秒;降低要求的运动量。
  • 手部和手指扭曲——源图里让手保持静止或出画;只在必要时才提示手部动作。
  • 背景"呼吸"或晃动——运动提示词对这个场景太激进;加上"固定机位,细微运动"重跑。
  • Logo 和标签文字融化——让带标签的一面朝向镜头,旋转控制在 90 度以内;主视觉镜头在后期把 logo 修回去。
  • 第一帧偏色——Seedance 偶尔会给第 1 帧重新调色;把色调直接烘进源图,并注明"保持原始色调"。
  • 主体静止只有镜头在动——你的提示词只描述了镜头运动;给主体一个明确的动词。

每周来自真实测试的 i2v 套路

我们每月让几百张静态图动起来,只发送经受住测试的运动提示词——每周一封。

常见问题

怎么用 AI 把照片变成视频?

Sora2U 生成器上把照片作为首帧图上传到 Seedance 2.0 这类图生视频模型,写一句只描述变化的运动提示词("她转身微笑,缓慢推近"),然后生成。片段最长 15 秒、1080p、带原生音频。

什么时候该用图生视频而不是文生视频?

凡是第一帧必须精确的场景都用 i2v——真实产品、特定人脸、锁定构图、或你已经拥有的静态素材。需要模型自己构建场景、或镜头运动本身是重点时用文生视频。

AI 视频的源图需要多高分辨率?

至少达到目标输出的高度——1080p 视频对应 1080px 以上——并提前裁剪到目标画幅(16:9、9:16 或 1:1)。模糊的图要在上传前先放大修复,因为 i2v 会把模糊放大成涂抹感。

AI 图生视频里怎么保持人脸一致?

首帧图搭配 2–3 张同一张脸不同角度的参考照,片段控制在 5–10 秒,头部旋转不超过 30 度,并且用"参考图中的人"指代,而不是用文字重新描述长相。

Seedance 能把产品图做成广告视频吗?

能——这是它最强的商业用途之一。上传产品图,每条片段只动一个属性(旋转、开盖、倾倒),镜头保持固定,让原生音频补上咔哒声或气泡声。一条 5 秒主视觉片段按量付费口径远低于一美元。

Seedance 图生视频完整教程:让照片动起来的 AI 动画指南(2026) | Sora2U | Sora2U — 免费 AI 视频生成平台