
AI Image Agent:1枚も100枚も、ツールを切り替えずに画像生成可能
NanoBananaのAI Image Agentは、単一のコンセプト画像からバッチスタイルトランスファーまで、1つのチャットですべて処理できます。promptのエンジニアリングは不要です。
要点まとめ
NanoBananaのAI Image Agentは自然言語をプロダクションで使用可能な画像に変換します — 単独でもバッチ処理でも。欲しいものを説明すれば、エージェントがpromptの設定、アスペクト比、モデル選択、リファレンスによるスタイル移行を処理します。チャット一回で、ツールを切り替える必要はありません。
📌 主要なハイライト(10秒で読めます)
- ✅ 1枚生成、ゼロフリクション: 「Xの画像を生成して」と言えば — エージェントが最適化されたpromptを作成し、すぐに実行します
- ✅ バッチモード: 1回のリクエストで最大20枚の画像 — プロダクト写真、広告バリエーション、キャラクターシート
- ✅ スタイル移行: リファレンス画像を渡し、目標のスタイルを説明すれば — すべての出力がブランドのイメージを保ちます
- ✅ ストーリーボード展開: 任意の画像をドロップ → 動画制作用の3つのシネマティックなショットpromptを取得できます
- ✅ 6種類以上のモデル: 2クレジットのドラフト品質から6クレジットのフラッグシップ品質まで — エージェントが最適なものを選びます
- ⏱️ 読書時間: 4分
現在の「AI画像生成」の問題点
ほとんどのAI画像ツールはテキストボックスを提供します。何かを入力し、結果を得て、調整し、再生成する。これを繰り返す。1枚の画像ならうまくいきますが、20枚必要な時には使えません。
もう一つの問題: promptの設定。拡散モデルから良い画像を得るには、特定の専門用語が必要です — カメラアングル、照明条件、スタイル修飾子、技術的なアスペクト比など。ほとんどの人はそれを学びたくない。彼らは自分が欲しいものを平易な言葉で説明し、適切な画像を得たいだけです。
NanoBananaのAI Image Agentは両方の問題を解決します。自然言語を最適化された生成用promptに変換し、その作業に適したモデルを選び、必要なものを説明する時間でバッチ全体を実行することができます。

AI Image Agentができること
単一画像生成
最もシンプルなユースケースです。画像を任意の詳細レベルで説明すると、エージェントがすぐに生成します。
「夜の暗いサイファイ都市景観、シネマティックな照明、ワイドショットにして」
裏側ではエージェントが以下を実行します:
- あなたの意図を分析します(被写体、スタイル、雰囲気、構図、照明)
- 適切なアスペクト比を選びます(シネマティック用に16:9、ポートレート用に9:16、ソーシャル用に1:1)
- 品質の期待値とコストに基づいて適切なモデルを選択します
- 具体的で詳細な英語のpromptを作成します — 「美しい」「良い」といった曖昧な記述は使いません
- すぐに実行します — 確認ダイアログは表示しません
画像が得られます。バリエーションが欲しい場合は、変更点を自然言語で説明してください。
💡 AI Image Agentは画像生成時に「よろしいですか?」と確認しません — すぐに実行するので、フィードバックループがスムーズに続きます。
バッチ画像生成
これがImage Agentがその名に値する理由です。複数の画像の要件を1つのメッセージで説明すると、エージェントがすべてを同時に送信します。
「ワイヤレススピーカーの製品写真を8枚生成してください。場所はそれぞれ違って: デスクの上、公園の屋外、コーヒーショップ、ジム、キッチンカウンター、ビーチ、スタジオの白い背景、リビングルームの棚。モダンなライフスタイル写真の雰囲気にして。」
エージェントは以下を実行します:
- それぞれの環境に合わせて最適化された8つの個別のpromptを作成します
- 8枚をすべて並列で送信します
- それぞれが完了するごとに更新される個別のカードとして表示します
- 大規模なバッチには自動的にコスト効率の良いモデルを使用します
バッチモードは1回のリクエストで最大20枚の画像をサポートします。より大きなプロジェクトの場合は、複数のバッチに分割してください。

スタイル移行
リファレンス画像を渡し、目標のスタイルを説明すると — 必要な数の出力すべてに一貫性を持って変換を適用します。
一般的なユースケース:
- ブランドの一貫性: ブランドマスコットをアップロードし、10種類の季節ごとのバリエーションを生成
- 製品写真: 製品の写真をアップロードし、特定の美学(アニメ、油絵、ミニマルな線画)に変換
- キャラクターの一貫性: キャラクターを1度作成したら、以降のすべての生成でリファレンスとして再利用
リファレンス画像が視覚的なアイデンティティを固定します。promptが変換内容を記述します。
「この製品写真[画像]を、1970年代のヴィンテージな日本の広告ポスターのスタイルで再現して」
ストーリーボード展開(画像 → ショット)
これはImage AgentとVideo Agentをつなぐ橋渡しです。
チャットに任意の画像をドロップし、ストーリーボード用promptを要求してください。エージェントが画像を分析し、同じシーンから異なるアングル、動き、瞬間を捉えた3つのシネマティックなショットの内訳を生成します — それぞれが動画生成用に最適化されています。
出力例:
- ショット1: 導入用ワイドショット prompt
- ショット2: 動きのあるミディアムクローズアップ
- ショット3: 細部のクローズアップまたはPOVショット
promptはいずれもNanoBananaの動画生成ツールに直接投入できる状態です。AIがソース画像のアスペクト比を自動で検出するため、すべてのショットの比率が一貫して保たれます。
ストーリーボードが表示された後、エージェントはオリジナル画像を参照に3つのショットすべてのプレビュー画像を生成するよう提案します。これにより、動画生成クレジットを使用する前に仕上がりを確認できます。

モデルと料金体系
エージェントはリクエストの文脈に基づいて自動でモデルを選択しますが、いつでも自分で指定することができます。現在のオプションは以下の通りです:
| モデル | クレジット | 最適な用途 |
|---|---|---|
| gemini-2.5-flash | 2cr | 高速な下書き、反復作業 |
| grok-imagine | 2cr | 写真的な表現、低コスト |
| gpt-4o | 2cr | クリエイティブな制作、指示に沿った生成 |
| flux2-klein | 3cr | 高速で品質が良い |
| nanobanana-2 | 4cr | 品質とウェブグラウンディングのバランス(デフォルト) |
| flux2 | 4cr | バランスが取れて汎用的 |
| seedream-4.0 | 4cr | 高品質 |
| gemini-3-pro | 6cr | 最高品質 |
| flux2pro | 6cr | プレミアム品質 |
| seedream-5.0 | 6cr | 次世代品質 |
バッチジョブ(8~20枚の画像)の場合、特に指定がない限りエージェントはflux2-klein(3cr)やgrok-imagine(2cr)といったコスト効率の良いモデルをデフォルトで使用します。10枚のバッチを2crずつで生成すると合計20クレジットとなります。
通常の画像生成ツールとの違い
| 機能 | 通常のtext-to-image | NanoBanana Image Agent |
|---|---|---|
| Prompt エンジニアリング | 自分でpromptを記述する | エージェントがあなたの説明から生成する |
| バッチ生成 | 1枚ずつ | 最大20枚を並列で生成 |
| スタイル移行 | 手動でpromptを構築する | スタイルを説明し、参照画像を渡す |
| モデル選択 | 自分で選択する | リクエストに基づいてエージェントが選ぶ |
| 動画用ストーリーボード | 非対応 | 内蔵のショット展開機能 |
| コンテキスト内でのフォローアップ | 最初からやり直す | 同じ会話内で修正する |
Image Agentの価値は、より優れた画像生成モデルではなく、あなたが何を達成したいかを理解し、技術的な決定を自動で処理してくれるAIである点にあります。
このツールの対象ユーザー
大量に商品写真のバリエーションが必要なEコマースチーム。ソース画像をアップロードし、目標の環境やスタイルを説明すれば、数分で20種類のバリエーションを取得できます。
単一のコンセプトから複数のアスペクト比や視覚スタイルが必要なソーシャルメディアマネージャー。一度説明するだけで、すべての掲載先に合わせて生成できます。
写真撮影やイラストの受注を行う前に、視覚的な方向性を素早く探索したいデザイナーとクリエイティブディレクター。このエージェントをアイデア出しツールとして活用できます。
AI Video Directorのパイプラインを開始する前に参照画像が必要な動画クリエイター。Image Agentで視覚的な言語を定めた後、ストーリーボード作成のために参照画像をDirector Agentに渡すことができます。
始め方
NanoBananaで新しいチャットを開き、欲しいものを説明するだけです。試してみたい例をいくつか紹介します:
"Blackwood"というコーヒーブランドのミニマルなロゴコンセプトを生成してください。モダンでエレガントなモノクロのデザインにしてください。"フィットネスアプリの広告画像を5枚作成してください — さまざまなトレーニング環境を描き、エネルギッシュな雰囲気にしてください。16:9""この参照写真[画像]をスタジオジブリ風のイラストに再現してください""この画像を商品動画用のストーリーボード3ショットに展開してください"
よくある質問
Image Agentはプロジェクトやシナリオなしで使用できますか?
はい。Image Agentのツールはいつでも利用可能で、プロジェクトの設定は必要ありません。欲しいものを説明して生成するだけです。
自分でモデルを指定することはできますか?
もちろんです。リクエストの中で「これにはgemini-3-proを使用してください」と記述するか、アカウントの環境設定で優先する画像生成モデルを設定してください。他の指定をしない限り、エージェントはあなたの設定を尊重します。
バッチ生成で失敗が発生した場合はどうなりますか?
バッチ内の1枚の画像が失敗しても、他の画像の生成は続行されます。料金は成功した生成分のみ請求されます。失敗した項目は結果カードにマークされるため、個別に再試行することができます。
バッチの最大サイズはいくらですか?
1リクエストあたり最大20枚です。より大きなプロジェクトの場合は複数のバッチに分割してください。エージェントはこれをスムーズに処理します。
生成した画像をさらなる生成の参照として使用できますか?
はい。画像が生成されたら、同じ会話内で「前回の画像を次のバッチの参照として使用してください」と指定するだけで、エージェントが自動的にURLを抽出します。
スタイル転送はどんな画像でも動作しますか?
スタイル転送は、参照画像が保存したい視覚的なアイデンティティ(キャラクター、商品、場所、またはスタイル)を明確に示している場合に最も効果的に機能します。ぼやけた画像や低解像度の参照画像では、結果が不安定になることがあります。
Image Agent と AI Video Director はどう違うのですか?
これらは補完し合う関係にあります。Image Agent は単一画像、バッチ処理、スタイル転送といった、迅速かつ柔軟な画像出力のために特化して開発されています。AI Video Director はシナリオ → キャラクター → ストーリーボード → ビデオクリップというエンドツーエンドの制作パイプラインです。Image Agent は、キャラクターやシーンの一貫性を保つための参照画像を提供することで、Video Director の制作をサポートできます。
Image Agent を商用利用しても大丈夫ですか?
はい。NanoBanana で生成されたすべての画像は商用利用が可能です。利用権に関する詳細は利用規約をご確認ください。
続きを読む

PixVerse V6 対 V5.6:カメラコントロール、オーディオ、マルチショットエンジン
PixVerse V6は2026年3月30日に公開されました。V5.6と比較すると、20種類以上のシネマカメラコントロール、ネイティブオーディオ、マルチショットエンジンが追加され、1080pでのクリップ制限が15秒に引き上げられています。ここでは直接比較して解説します。

Veo 3.1 Lite Image-to-Video: 商品写真を1分未満でクリップに変換
Veo 3.1 Liteのimage-to-videoモードを使って、静止画から商品デモ、ソーシャルメディアコンテンツ、ブランド動画を作成する方法 — 実際の例とワークフローのヒント付き

Wan 2.7:先頭フレーム制御と15秒クリップ生成に対応したAlibabaの新しい動画モデル
Wan 2.7は、Alibabaのオープンソース動画モデルラインナップに、先頭/最終フレーム制御、multi-reference 動画入力、指示ベースの編集機能を追加しました。Wan 2.6からの変更点を解説します。