2026/04/02

Wan 2.7 対 Wan 2.6：実際に何が変わったのか

Wan 2.7には、Wan 2.6に搭載されていなかった先頭/最終フレーム制御、9グリッド画像入力、multi-reference 動画、指示編集機能が追加されています。ここでは変更点と、それぞれのバージョンをいつ使うべきかについて実用的に解説します。

要約 — 変更された5つの点

✅ Wan 2.7 に先頭/最終フレーム制御 (FLF2V) が追加 — 2.6にはありません
✅ Wan 2.7 は最大5つの参照動画入力に対応 — 2.6にはmulti-reference入力がありませんでした
✅ Wan 2.7 に9グリッド画像入力が追加 — 2.6は単一画像参照を使用していました
✅ Wan 2.7 に命令ベースの動画編集が追加 — クリップ全体を再生成することなく既存のクリップを編集可能
✅ Wan 2.7 の最大動画長は15秒 — Wan 2.6 は約5秒に制限されていました

簡易スペック比較

機能	Wan 2.6	Wan 2.7
アーキテクチャ	Diffusion Transformer	Diffusion Transformer + Flow Matching
最大動画長	~5秒	15秒
最大解像度	1080P	1080P
アスペクト比	16:9, 9:16, 1:1	16:9, 9:16, 1:1
テキストから動画	✅	✅
画像から動画	✅	✅
先頭/最終フレーム制御	❌	✅
複数参照動画（最大5つ）	❌	✅
9グリッド画像入力	❌	✅
命令ベース編集	❌	✅
多言語リップシンク	❌	✅
オープンソース	Apache 2.0 (確定)	計画 (ステータス保留中)
APIアクセス	各種サードパーティAPI	WaveSpeedAI, DashScope

Wan 2.7の新機能（Wan 2.6になかったもの）

これらの追加機能により、Wan 2.7はマイナーな改良ではなく、実質的なアップグレードとなっています。

先頭 / 最終フレーム制御

これが目玉機能です。FLF2V (First-Last Frame to Video) により、クリップの先頭フレームと終了フレームの両方を定義できます。モデルがその間のすべてを生成します。

この機能の重要性: Wan 2.6ではテキスト prompt または開始画像を指定して、モデルがモーションを生成することはできましたが、ショットの最終的な状態を制御することはできませんでした。FLF2Vを使えば両方の端点を設定できます。これは次のような場合に有用です：

製品ショットを特定のアングルで開始し、特定のアングルで終了させる必要がある場合
定められた軌道に沿ってキャラクターをアニメーションさせる場合
承認済みの2つのコンポジション間のトランジションを作成する場合

この機能だけでも、Wan 2.7は単なる生成ツールから、指示に従ったアニメーションツールに近い存在に進化しています。

複数参照動画入力 (最大5つ)

Wan 2.6はimage-to-video生成の開始点として単一の画像を参照できるだけでした。Wan 2.7は最大5つの参照動画を同時に受け入れることができます。モデルはすべての参照からキャラクターの外見、モーションスタイル、環境のコンテキストを推論します。

この機能の重要性: 単一画像の参照には限界があります。1つのアングルから撮影された被写体は、カメラが移動した際に一貫性を保てないことがあります。異なるアングル、異なるポーズ、異なる照明で撮影された5つの参照動画を用意することで、モデルは生成されるクリップ全体で視覚的な一貫性を維持するための、より多くの情報を得ることができます。

繰り返し登場するキャラクターや製品アセットを扱うブランドや代理店にとって、これは実用的で意義のある改善です。

9グリッド画像入力

9グリッド入力では、3×3のグリッドに配置された9枚の画像を1つの入力として受け入れます。モデルは9枚すべてのフレームをまとめて処理し、複数の視点から被写体や環境を理解します。

この機能の重要性: 単一の参照写真は1つの視点しか捉えられません。9枚あれば被写体の360度の情報を得ることができます。これは特に、単一フレームからの空間理解では不十分なキャラクターの一貫性維持や環境定義に有用です。

命令ベースの動画編集

既存の動画クリップがあれば、Wan 2.7は自然言語の命令を適用してクリップを修正できます。例：背景を白からダークウッド調に変更する、ジャケットの色を赤からネイビーに変更する、照明を暖かくする、環境に雨を追加する。

この機能の重要性: Wan 2.6では、生成されたクリップが9割正しくても1箇所変更が必要な場合は、最初からpromptして完全に再生成するしか選択肢がなく、時間とコストがかかっていました。命令ベース編集なら、完全な再生成なしで的確な修正が可能です。これは画像生成ツールでは標準の機能ですが、Wan 2.7がこれを動画にもたらしました。

最大動画長: 15秒

Wan 2.6は約5秒が上限でした。Wan 2.7ではこれを15秒に延長しています。動画長が3倍になることで、1回の生成でモデルが作成できる内容が変わります：完全な製品デモ、完成された短いシーン、複数の展開がある物語的な瞬間などです。

5秒以内のクリップであれば比較上はどちらでも問題ありません — どちらのモデルでも生成可能です。5秒を超えるコンテンツについては、この2つの中ではWan 2.7だけが選択肢となります。

Wan 2.6を依然として使うべき場面

スペック上はWan 2.7がより優れたモデルです。それでもWan 2.6には状況によって実用的な利点があります：

オープンソースで利用可能。 2.x系統のベースであるWan 2.1はApache 2.0の下で完全にオープンソースでした。ワークフローにローカル実行、セルフホスティング、オフラインパイプラインへの統合が必要な場合、オープンソースApache 2.0系統のWan 2.6モデルが利用可能で、十分にドキュメントも整備されています。Wan 2.7のオープンソースステータスはローンチ時点で保留されています。

実績のあるAPI統合。 Wan 2.6は長くサードパーティAPI経由で利用可能です。既にツールチェーンがWan 2.6を提供するプロバイダに接続されている場合、切り替えには新しい統合のテストが必要になります。

単純なT2VおよびI2Vタスク。 あなたのユースケースが5秒以下のクリップでの単純なtext-to-video または image-to-videoであれば、Wan 2.6で十分に仕事をこなせます。Wan 2.7の新機能は単純な生成タスクには不要です。

コストの不確実性。 WaveSpeedAIとDashScopeでのWan 2.7の価格は、各プラットフォームで確認する必要があります。大量のバッチ処理を行う場合、1秒あたりの価格が2つのバージョンで異なる可能性があるため、実施する前に確認してください。

判断表

シナリオ	推奨
5秒より長いクリップが必要	Wan 2.7
最初と最後のフレーム制御が必要	Wan 2.7
ショット全体でのキャラクターの一貫性 (multi-reference)	Wan 2.7
完全な再生成をせずに既存クリップを編集	Wan 2.7
クリップが5秒以下のシンプルなT2V	どちらでも — Wan 2.7推奨
今日からローカル/セルフホストで実行したい	Wan 2.6 (オープンソース確定済み)
既に安定したWan 2.6パイプラインを使用中で、移行予算がない	Wan 2.6

結論

Wan 2.7はメジャーバージョンアップグレードです。最初と最後のフレーム制御、multi-reference 動画入力、9グリッド画像入力、指示による編集、15秒の長さの動画出力は、いずれもWan 2.6にはない機能です。ほとんどの新規制作作業において、Wan 2.7が適切な選択です。

例外となるのは、オープンソースでのセルフホスト実行が必須の場合（Apache 2.0ライセンスのWan 2.6は現在利用可能ですが、Wan 2.7のオープンソース公開は未定です）、または既存のWan 2.6統合が安定しており移行コストがメリットを上回る場合です。

→ NanoBanana でWan 2.7を試す — text-to-video と image-to-video に対応、APIセットアップは不要です。

よくある質問

開示情報

機能比較はAlibaba Tongyi Labの公式Wan 2.7リリース資料（2026年3月時点）と、Wan 2.6に関する公開情報に基づいています。執筆時点でWan 2.7の公式価格が確定していなかったため、価格については相対的な表現を使用しています。制作判断を行う前に、wavespeed.aiとAlibaba Cloud DashScopeで最新の価格をご確認ください。

すべての記事

著者

Bubbles

続きを読む

Product

Veo 3.1 Lite Prompt ガイド：シネマティックAI動画向け20個以上のすぐ使えるPrompt

シネマティックな仕上がりを得るためのprompt Veo 3.1 Liteの使い方を完全に解説します。ショットの種類、カメラワーク、音響、さらに各ジャンルの20個以上のコピペで使えるpromptまで、無駄のない内容です。

Bubbles

2026/04/02

NewsProduct

Seedance 2.0: ByteDanceのマルチモーダルAI動画生成完全ガイド

マルチモーダル入力、ネイティブな音声・動画同期、2K解像度出力、ディレクター級のクリエイティブコントロールを特徴とする、ByteDanceの革新的なAI動画モデル「Seedance 2.0」の全貌をご紹介します

2026/02/19

NewsProduct

PixVerse V6：シネマカメラコントロール、ネイティブオーディオ、15秒クリップ

PixVerseは2026年3月30日にV6をローンチしました。20種類以上のシネマカメラコントロール、ネイティブオーディオ同期、マルチショットエンジン、最長15秒の1080pネイティブ出力に対応しています。本記事では変更点と、あなたのワークフローに適しているかどうかを解説します。

Bubbles

2026/04/02

Wan 2.7 対 Wan 2.6：実際に何が変わったのか

要約 — 変更された5つの点

✅ Wan 2.7 に先頭/最終フレーム制御 (FLF2V) が追加 — 2.6にはありません
✅ Wan 2.7 は最大5つの参照動画入力に対応 — 2.6にはmulti-reference入力がありませんでした
✅ Wan 2.7 に9グリッド画像入力が追加 — 2.6は単一画像参照を使用していました
✅ Wan 2.7 に命令ベースの動画編集が追加 — クリップ全体を再生成することなく既存のクリップを編集可能
✅ Wan 2.7 の最大動画長は15秒 — Wan 2.6 は約5秒に制限されていました

簡易スペック比較

機能	Wan 2.6	Wan 2.7
アーキテクチャ	Diffusion Transformer	Diffusion Transformer + Flow Matching
最大動画長	~5秒	15秒
最大解像度	1080P	1080P
アスペクト比	16:9, 9:16, 1:1	16:9, 9:16, 1:1
テキストから動画	✅	✅
画像から動画	✅	✅
先頭/最終フレーム制御	❌	✅
複数参照動画（最大5つ）	❌	✅
9グリッド画像入力	❌	✅
命令ベース編集	❌	✅
多言語リップシンク	❌	✅
オープンソース	Apache 2.0 (確定)	計画 (ステータス保留中)
APIアクセス	各種サードパーティAPI	WaveSpeedAI, DashScope