Seedance 图生视频完整教程：让照片动起来的 AI 动画指南（2026） | Sora2U

Q: 怎么用 AI 把照片变成视频？

在 [Sora2U 生成器](/seedance-generator)上把照片作为首帧图上传到 Seedance 2.0 这类图生视频模型，写一句只描述变化的运动提示词（"她转身微笑，缓慢推近"），然后生成。片段最长 15 秒、1080p、带原生音频。

图生视频（i2v）是 Seedance 2.0 杠杆率最高、也最常被用错的功能。与其赌模型从文字里想象出什么，不如直接递给它一帧已经正确的画面——你的产品、你的脸、你的构图——把提示词全部花在运动和音频上。在我们的测试中，凡是必须长得像某个真实事物的主体，i2v 把"尝试次数到可用片段"的成本砍掉了大约一半。

本教程覆盖完整的 i2v 工作流：什么时候选它而不是文生视频、怎么准备源图、首帧图（init image）和 Seedance 的 12 素材参考系统有什么区别、产品/人像/风景三类场景的运动提示词套路，以及我们每天都在用的伪影修复方法。所有内容都可以在 Sora2U 的 Seedance 生成器上操作——传图、写运动、生成。

什么时候图生视频胜过文生视频

经验法则：首帧必须精确就用 i2v，运动本身是重点就用 t2v。具体来说，i2v 在这些场景下完胜：

真实产品必须保持可辨认——产品图、设备、服装。文字描述你的产品一定会跑偏，照片永远不会。
特定的脸或品牌视觉不容妥协——创始人肖像、连续出场的角色、锁定的色调。
静态素材已经花过钱了——产品摄影和房产实拍图能以边际成本变成视频。
构图要求精确——三分法布局、给文字叠加留的负空间、广告位的精确取景。

文生视频依然更适合运镜驱动的镜头（无人机后拉、跟拍）和需要模型自己构建世界的场景。那类场景请从 Seedance 提示词工程指南开始——那篇的四模块结构是本文的基础。

源图准备

Seedance 会继承源图的一切——锐度、噪点、偏色和所有失误。花 30 秒做准备，能省下三次重新生成：

分辨率：上传图至少要达到输出高度——1080p 视频对应 1080px 以上。模糊的图要在上传之前先放大修复；Seedance 会把模糊放大成涂抹感。
画幅比例：自己裁好目标比例（16:9、9:16 或 1:1）。自动裁剪会替你做决定，竖屏输出里经常把主体的头裁掉。
给运动留余量：在计划运动的方向留出 10–15% 的空白画面——推近需要可消耗的背景，横摇需要可去的地方。
干净的边缘：水印、边框、时间戳叠加在运动开始后会变成扭动的伪影。先清理掉——水印移除工具一遍就能处理。
单一明确主体：i2v 处理多主体层级的能力很差。五个同等权重主体的画面会产出五个各动一半的结果。

首帧图 vs 参考素材

Seedance 提供两种喂图方式，混淆它们是最常见的 i2v 错误。首帧图（init image）就是第一帧——视频从它开始播放。参考素材（单次生成最多 12 个：图片、视频片段、音频）是引导——它们告诉模型某个角色、产品或风格在整条视频里应该长什么样，但不规定第一帧。

	首帧图	参考素材
角色	字面意义上的第一帧	身份与风格引导
数量	一张	最多 12 个（图片、视频、音频）
控制范围	第一帧的构图、取景、灯光	主体在全部帧里的外观
最适合	让一张特定照片动起来	跨镜头、跨片段的角色一致性
误用后果	约 5 秒后身份漂移	第一帧无视你的构图

专业做法是两者结合：首帧图锁定精确的开场画面，再加 2–3 张同一主体不同角度的参考照。主体转身或镜头移动时，靠的正是参考素材锁住身份——单凭第一帧，模型不可能知道产品背面长什么样。

一次生成，让你的第一张照片动起来

把图片上传到 Seedance 2.0，加一句运动提示词，得到最长 15 秒的 1080p 原生音频视频。

Affiliate 链接 — 你不会多付一分钱，我们可能获得佣金。

立即体验图生视频

在图片之上写运动提示词

用 i2v 时，"长什么样"已经由图片回答了——再用文字复述画面不仅浪费 token，还会引来漂移。只描述会变化的东西：主体运动、镜头运动、音频。控制在约 40 词以内。

弱写法："一位美丽的红发女子穿着黄色大衣站在秋天的桥上……"（复述图片——模型可能会"纠正"你本想保留的细节）。
强写法："她转向镜头微笑，发丝随微风扬起。缓慢推近。音频：桥下河水声，远处鸟鸣。"
强写法（产品）："瓶身旋转 90 度，冷凝水珠沿玻璃滚落。固定机位。音频：轻微气泡声，环境休闲音乐。"

运动强度要显式校准——人像和产品用"细微""轻柔""缓慢"；"动感强烈"留给经得起形变的场景。不加约束时，Seedance 默认的运动量比大多数商业镜头需要的更大。更多按 i2v 标签筛选的实测运动模板在提示词库的 Seedance 专区。

三套打法：产品、人像、风景

产品镜头

每条片段只动一个属性：一次旋转、一次开盖、一次倾倒、一次布料落定。镜头保持固定或缓慢推近，让原生音频去卖质感——一声咔哒、一阵气泡、一下布料摩擦。这是 2026 年最便宜的产品视频流水线：现成产品图进、5 秒主视觉片段出，按量付费口径不到一美元。完整的转化漏斗算账见电商视频营销指南。

人像

人脸最不容出错。只要求微运动：一次眨眼、一个缓慢的微笑、不超过 30 度的轻微转头、微风中的发丝。再加 1–2 张同一张脸的照片作参考素材，片段控制在 5–10 秒——超过 10 秒后身份保持能力会明显下降。配合台词时，Seedance 能让肖像对口型念你写的句子，但头部要保持接近正面，音素才干净。

风景

风景对运动的容忍度最高，正是慢速运镜发挥的地方：云层漂移、水面涟漪、草丛摇曳，再叠一个缓慢的横摇或推轨。环境音底床一定要写（"松林里的风，远处的浪"）——没有声音的风景片段看起来像动态壁纸，不像视频。这里 10–15 秒完全可行，因为没有需要保持的身份。

保持身份稳定

加 2–3 个不同角度的主体参考素材——这是对抗漂移影响最大的单项修复。
需要保脸时片段上限设在 10 秒；宁可生成两条短的剪在一起，不要一条长的。
单条片段内主体旋转控制在 90 度以内——完整转身会逼模型凭空发明看不见的那一面。
提示词里用一致的指代（"参考图中的女性"），绝不要用文字重新描述她的长相。
做系列内容时，整批生成复用完全相同的参考素材组和源图风格。

不涉及身份的镜头如果需要更快更便宜的迭代，Sora2U 上 10 积分/秒的 Seedance 1.5 就是草稿档——完整积分算法见价格页。想知道 Seedance 的 i2v 和 Kling 比怎么样，看 Seedance 2.0 vs Kling 对比。

常见伪影与修复

片段中途脸变形——补充同一张脸的参考照；把片段缩短到 5–8 秒；降低要求的运动量。
手部和手指扭曲——源图里让手保持静止或出画；只在必要时才提示手部动作。
背景"呼吸"或晃动——运动提示词对这个场景太激进；加上"固定机位，细微运动"重跑。
Logo 和标签文字融化——让带标签的一面朝向镜头，旋转控制在 90 度以内；主视觉镜头在后期把 logo 修回去。
第一帧偏色——Seedance 偶尔会给第 1 帧重新调色；把色调直接烘进源图，并注明"保持原始色调"。
主体静止只有镜头在动——你的提示词只描述了镜头运动；给主体一个明确的动词。

每周来自真实测试的 i2v 套路

我们每月让几百张静态图动起来，只发送经受住测试的运动提示词——每周一封。

常见问题

怎么用 AI 把照片变成视频？

在 Sora2U 生成器上把照片作为首帧图上传到 Seedance 2.0 这类图生视频模型，写一句只描述变化的运动提示词（"她转身微笑，缓慢推近"），然后生成。片段最长 15 秒、1080p、带原生音频。

什么时候该用图生视频而不是文生视频？

凡是第一帧必须精确的场景都用 i2v——真实产品、特定人脸、锁定构图、或你已经拥有的静态素材。需要模型自己构建场景、或镜头运动本身是重点时用文生视频。

AI 视频的源图需要多高分辨率？

至少达到目标输出的高度——1080p 视频对应 1080px 以上——并提前裁剪到目标画幅（16:9、9:16 或 1:1）。模糊的图要在上传前先放大修复，因为 i2v 会把模糊放大成涂抹感。

AI 图生视频里怎么保持人脸一致？

首帧图搭配 2–3 张同一张脸不同角度的参考照，片段控制在 5–10 秒，头部旋转不超过 30 度，并且用"参考图中的人"指代，而不是用文字重新描述长相。

Seedance 能把产品图做成广告视频吗？

能——这是它最强的商业用途之一。上传产品图，每条片段只动一个属性（旋转、开盖、倾倒），镜头保持固定，让原生音频补上咔哒声或气泡声。一条 5 秒主视觉片段按量付费口径远低于一美元。