AI 動画の完全ワークフロー:2026 年版 脚本から公開まで

再現可能な AI 動画制作パイプライン — シーン単位の脚本術、ショットリストのプロンプト化、下書きは安く仕上げは高級にの戦略、クリップ結合、字幕、書き出し設定、実費付き 60 秒の実例まで。

2026年6月10日読了目安 15 分Sora2U チーム

きれいな 10 秒クリップなら誰でも生成できます。そこから公開できる完成動画までの距離こそが、ほとんどの AI 動画プロジェクトが息絶える場所です。ショットリストではなくブログ記事のように書かれた脚本、どうやっても繋がらないクリップ、シーン間で 6 dB も跳ねる音声、宇宙文字と化した画面内テキスト。これらはどれもモデルの問題ではなく、ワークフローの問題です。

このガイドは、私たちがクライアント納品で使っているパイプラインの全工程です。シーン単位で AI 向けに書く脚本術、ショットリストをそのままプロンプトにする方法、下書きは安く・仕上げは高級にのモデル戦略、継ぎ目を消すクリップ結合、ポストでのタイトルと字幕、プラットフォーム別の書き出し設定 — そして 60 秒のブランド動画を白紙から公開まで、1 ドル単位で記録した完全な実例で締めます。

ステップ 1:AI のために書く — 1 シーン 15 秒以内

AI 動画はクリップ単位で生成されるので、脚本もクリップ単位で書かなければなりません。2026 年のハードリミット:Seedance 2.0 は最長 15 秒、Kling は 10 秒、Veo 3 は 8 秒、Sora 2 は 4 秒。各シーンをレンダリングするモデルの上限内に収めて書けば、脚本は生成と 1 対 1 で対応する地図になります。

  • 1 シーン = 1 つの場所、1 つのカメラアイデア、1 つのアクション、1 つの意味のビート。文に「そして次に」が入ったら、それは 2 シーンです。
  • 視聴者が感じるべきことではなく、カメラに映るものを書く。「彼女はドアの前でためらい、手を取っ手にかける」は「彼女は緊張している」に勝ります。
  • 音声もシーンごとに脚本へ — ネイティブ音声モデルでは環境音が同時生成されるため、音は後付けの飾りではなく脚本の一部です。
  • ナレーションはタイマー片手に音読する:快適な話速は毎秒約 2.4 語、15 秒のシーンに載るのは最大でも約 36 語です。

ステップ 2:ショットリストがそのままプロンプトリスト

各シーンを固定の 5 スロットパターン — 主体・アクション・環境・カメラ・音声 — でプロンプトに変換し、全プロンプトの末尾に同じスタイルブロック(「温かいアンバーのグレード、35mm フィルムグレイン、柔らかな窓の光」)を付けます。この反復こそが、別々に生成された 10 本のクリップを 1 本の映画に見せる仕掛けです。プロンプトにはシーン番号を振ってスプレッドシートで管理 — プロジェクトの「真実の源」は編集タイムラインではなく、このファイルです。

実際の変換例 — 後述する実例のシーン 3:「縦型 9:16。ゆっくりとした寄り:木のカウンターに置かれたブラックコーヒーの陶器マグ、立ち上る湯気、左から差す朝の光、ぼけたキッチンの背景。スタイル:温かいアンバーのグレード、35mm フィルムグレイン。音声:静かに注ぐ音、遠くのケトルの唸り。」この形式の既成パターンはプロンプトライブラリの Seedance セクションにあります。

ステップ 3:下書きは安く、仕上げはプレミアムで

AI 動画で最大のコストレバーは値切りではなく、探索フェーズにプレミアム料金を払わないことです。全シーンをまず安くて速いティアで生成し、構図と動きが決まるまでプロンプトを反復し、ロックしたプロンプトだけをプレミアムモデルで再実行します:

  • 下書きティアSora2U の Seedance 1.5(10 クレジット/秒)、生成 90 秒未満の Kling 2.0、予算ゼロなら無料ティア(Pika・Luma)。1 シーンあたり 2〜4 テイクを想定。
  • 仕上げティア:台詞やネイティブ音声が重要なものは Seedance 2.0(20 クレジット/秒)、8 秒以内のシネマティックなヒーローショットは Veo 3(9.2/10)。1 テイク、たまに 2 テイク。
  • 規律:下書きの合格基準は「画質を公開できるか」ではなく「構図を公開できるか」。そこで初めてプレミアムパスの資格を得る — これだけで全編プレミアム仕上げに比べてコストが 60〜70% 下がります(詳細な計算はこちら)。

2 つのティアを 1 か所で

Seedance 1.5(10 クレジット/秒)で下書きし、ロックしたプロンプトをネイティブ音声付きの Seedance 2.0 で仕上げる — 同じ画面、同じプロンプトで。

アフィリエイトリンク — 追加費用なしで、当サイトに手数料が入ることがあります。

ステップ 4:結合 — カット、カラー、音声

AI クリップは独立に生成されるため、編集の仕事は継ぎ目を隠すことです。3 つのルールで 9 割をカバーできます:

  • 動きの中でハードカット。何かが動いている瞬間に切る — 振り向き、注ぎ、踏み出し。クロスフェードやワイプは視線を継ぎ目に誘導しますが、アクション中のカットはそれを隠します。各 AI クリップの最初と最後の約 10 フレームはアーティファクトが集まるのでトリミング。
  • カラーは全体に 1 パス。スタイルブロックを固定しても、露出とホワイトバランスはクリップ間で漂います。スコープ(または編集ソフトの自動カラーマッチ)で最良のクリップに各ショットを合わせ、タイムライン全体に LUT を 1 つ当てる。
  • 音声を 1 つのターゲットに揃える。ネイティブ音声クリップはラウドネスがバラバラで届きます。SNS なら台詞を約 -14 LUFS にノーマライズし、音楽は声の 12〜18 dB 下に、そして全体の下に連続したルームトーンか音楽ベッドを 1 本敷く — 連続したベッドは、別々の生成を「同じシーン」に聴かせる最も安いトリックです。

CapCut も DaVinci Resolve も上記すべてを無料でこなせます。そもそも隠すべき継ぎ目の数を減らすマルチショットのテクニックは Seedance 2.0 チュートリアルで解説しています。

ステップ 5:タイトルと字幕はポストの仕事

2026 年のモデルはどれも画面内テキストを依然として壊します — ロゴは溶け、文字は勝手に発明されます。だからプロンプトでテキストを要求しないこと。クリーンな映像を生成し、文字は編集ソフトで載せます。SNS では焼き込み字幕が必須です(フィード視聴の多くはミュートで始まります)。CapCut か Resolve で自動文字起こしし、固有名詞と数字を手で直し、高コントラストの太いサンセリフで最大 2 行、各プラットフォームのセーフゾーン内に収める — プラットフォーム別の正確なマージンは TikTok・Reels 広告ガイドにあります。

ステップ 6:プラットフォーム別の書き出し設定

配信先アスペクトと解像度フォーマット備考
TikTok / Reels / Shorts9:16 · 1080×1920H.264 MP4、10〜12 Mbps、30 fps焼き込み字幕。音声は約 -14 LUFS
YouTube 長尺16:9 · 1920×1080 または 4KH.264/H.265 MP4、4K は 35〜45 Mbpsアップスケールした 4K マスターはネイティブ 1080p より良いトランスコードを得る
ウェブサイト / LP16:9 または 1:1 · 1080pH.264 MP4 + WebM フォールバック、約 10 MB 以下ミュート自動再生を前提に — 無音でも成立する映像に
有料広告(Meta / TikTok)9:16 マスター + 1:1 クロップH.264 MP4、500 MB 以下1:1 も同じマスターから書き出し、セーフゾーンを再確認

最高品質のマスターを 1 本書き出し、そこから各プラットフォーム版を派生させます。圧縮済みの書き出しを再圧縮しないこと — AI 映像は合成グレインがコーデックと相性が悪く、世代劣化が一気に積み上がります。

実例:60 秒のブランド動画を白紙から公開まで

ブリーフ:架空のスペシャルティコーヒーブランド「Driftwood Coffee」の 60 秒縦型ローンチ動画 — ムード主導、口頭の台詞は 1 つ、全編字幕付き。以下が実際の制作ログです:

  1. 脚本(45 分、$0):4 シーン × 15 秒 — 夜明けの海岸線のエスタブリッシングショット、焙煎機の中で踊る豆、キッチンでのスロードリップ、窓辺の女性が言う“ゆっくり味わう価値のある朝。”
  2. プロンプト(30 分、$0):5 スロットパターンのプロンプト 4 本、共通スタイルブロックは「落ち着いた夜明けのパレット、柔らかなフィルムグレイン、わずかな手持ち感」。
  3. 下書きパス(現金 $0 / 1,800 クレジット):各シーン 3 テイクを Seedance 1.5 で — 12 クリップ × 15 秒 × 10 クレジット。2 シーンは 1 テイク目でロック、ドリップは 3 テイク使い切り。
  4. 仕上げパス(現金 $0 / 1,500 クレジット):ロック済みプロンプト 4 本を Seedance 2.0(20 クレジット/秒、1,200 クレジット)で再実行し、リップシンクのズレを直すために台詞シーンを 1 回引き直し(300 クレジット)。波音、焙煎機、ドリップ、台詞はすべてネイティブ音声が担当。
  5. 編集(90 分、$0):動きの中でハードカット、LUT は 1 つ、音楽ベッドは生成環境音の -16 dB 下、字幕は CapCut、ラウドネスは -14 LUFS にノーマライズ。
  6. 書き出しと公開(15 分):1080×1920 のマスター 1 本。TikTok・Reels・Shorts 版は各セーフゾーンに合わせて字幕ブロックの位置だけ調整。

合計:Sora2U で約 3,300 クレジット — 従量課金換算でおよそ $10〜17 — と人の作業約 4 時間(大半は脚本と編集)。同じ納品物を小規模プロダクションに頼めば $2,000 からの 2 週間です。このワークフローを自分のものにする理由は、これに尽きます。

週 1 本、ワークフローの解剖をお届け

実プロジェクト、実プロンプト、実コスト — 毎週 1 本の AI 動画の制作ログを公開しています。

よくある質問

脚本から AI 動画を作るには?

脚本を 15 秒以内のシーンに分割し、各シーンを「主体・アクション・環境・カメラ・音声」の 5 スロットで共通スタイルブロック付きのプロンプトに変換。全シーンを安いモデルで下書きし、ロックしたプロンプトをプレミアムモデルで仕上げ、動きの中のハードカット・統一カラー・音声ノーマライズで結合します。

2026 年に 60 秒の AI 動画を作る費用は?

下書きは安く・仕上げはプレミアムのワークフローで約 $10〜17(Sora2U で約 3,300 クレジット):下書きは Seedance 1.5(10 クレジット/秒)、仕上げは Seedance 2.0(20 クレジット/秒)。下書きなしで全編プレミアム仕上げにすると 2〜3 倍かかります。

AI クリップを繋ぐと統一感がないのはなぜ?

各クリップが独立に生成されるためです。プロンプト側は反復するスタイルブロックと参照素材で、ポスト側はタイムライン全体への単一 LUT、クロスフェードではなく動きの中のカット、連続した音楽またはルームトーンのベッドで解決します。

AI 動画生成ツールは画面内テキストを描画できますか?

信頼できません — 2026 年の主流モデルはどれも判読可能な文字を崩します。クリーンな映像を生成し、タイトル・字幕・ロゴはすべて CapCut や DaVinci Resolve などの編集ソフトで追加し、各プラットフォームのセーフゾーン内に収めてください。

AI 動画の書き出し設定はどうすべき?

ほぼすべての場面で H.264 MP4:TikTok/Reels/Shorts は 1080×1920・10〜12 Mbps、YouTube は 1080p またはアップスケール 4K・35〜45 Mbps、ウェブサイトは 10 MB 以下のミュート自動再生版。常に高品質マスター 1 本から各版を派生させ、書き出し済みファイルの再圧縮は避けます。

AI 動画の完全ワークフロー:2026 年版 脚本から公開まで | Sora2U | Sora2U — 無料 AI 動画生成プラットフォーム