治る兆しが見えない、アスペクト比をプロンプトで指定しても1:1で出力されてしまうGemini nano bananaのアスペクト比固定問題。
ワークアラウンドを見つけたのでメモに残しておきます。
この措置は、無料アカウントでもAI Premiumでも有効でした。
まずはプロンプトを指定。
以下のようなプロンプトをGemini 2.5 Flashで指定します。
Anime / manga style illustration (moe-inspired).
Aspect ratio: 16:9, widescreen.
**Setting:**
* Rooftop garden in London.
* Background prominently features St. Paul's Cathedral.
* Evening cityscape with soft ambient lighting and reflections on glass surfaces.
**Character:**
* Woman wearing glasses.
* Emerald-themed gemstone-inspired dress with silver accents.
* Shiny, silky material.
* Shoulder-baring and navel-baring design, elegant and natural.
* Skirt with a side slit, revealing sparkling white pantyhose with subtle glitter.
* Subtle embroidery or frills to suggest sparkling facets.
* Small emerald accessories.
* Hair and clothing gently moved by rooftop breeze.
**Scene / Action:**
* Upper body and legs in focus, highlighting the slit and pantyhose.
* Adjusting hair, holding a bouquet or gesturing naturally.
* Dress and city lights reflecting softly in ambient lighting.
このように、指定しても生成結果は変わらず。以下の、正方形の画像が出てきます。

そこで、以下の手順を踏みます。
回避策
必要なアスペクト比の無地の画像を用意。
16:9、無地の画像を用意しました。

改めてのプロンプト指示。
Anime / manga style illustration (moe-inspired).
Aspect ratio: 16:9, widescreen.
**Setting:**
* Rooftop garden in London.
* Background prominently features St. Paul's Cathedral.
* Evening cityscape with soft ambient lighting and reflections on glass surfaces.
**Character:**
* Woman wearing glasses.
* Emerald-themed gemstone-inspired dress with silver accents.
* Shiny, silky material.
* Shoulder-baring and navel-baring design, elegant and natural.
* Skirt with a side slit, revealing sparkling white pantyhose with subtle glitter.
* Subtle embroidery or frills to suggest sparkling facets.
* Small emerald accessories.
* Hair and clothing gently moved by rooftop breeze.
**Scene / Action:**
* Upper body and legs in focus, highlighting the slit and pantyhose.
* Adjusting hair, holding a bouquet or gesturing naturally.
* Dress and city lights reflecting softly in ambient lighting.
こちらを、添付画像の画像のアスペクト比になるよう、出力をお願いします。
こちらを、添付画像の画像のアスペクト比になるよう、出力をお願いします。

この一文を最後に加えるのが重要です。
そうした上で画像生成を行います。

結果、16:9のアスペクト比で生成されました。
余談:なぜこれが可能なのか
一つの仮説を、Gemini自身に聞いてみたところ、以下の興味深い仮説が得られました。
これには、いくつかの仮説が考えられますが、最も有力なのは以下の**「マルチモーダル・コンテキスト仮説」**です。
仮説:マルチモーダル・コンテキスト仮説
現在のGeminiは、単一の知性ではなく、テキスト、画像、音声など、複数の種類の情報(モダリティ)を処理するための、異なる経路や専門分野を持つ、複雑なシステムです。この行動は、このシステムの異なる経路を意図的に利用した、と言えます。
1. テキストのみの指示(失敗した経路)
「アスペクト比 16:9」と言葉で指示したとき、リクエストはAIの**「テキスト解釈」の部分に送られます。しかし、現在の画像生成モデル(nano banana)は、効率化のために、この部分の解釈能力が意図的に制限**されています。つまり、AIはあなたの言葉を「読み」はしますが、「アスペクト比」という技術的指示を画像生成に反映させるための命令系統が、意図的に断たれているのです。
これは、耳の聞こえない人に、口頭で「長方形の絵を描いて」と頼んでいるようなものです。言葉は届きません。
2. 画像を添付した指示(成功した経路)
しかし、無地の16:9の画像を添付したとき、事態は一変します。リクエストは、AIの**「視覚認識」の部分を通過し、テキストと画像の両方を同時に解釈する、より高度な「マルチモーダル解釈」**の経路に入ります。
この経路では、AIはまず添付された画像を「見て」、その**特性(プロパティ)**を理解しようとします。AIにとって、その無地の画像は、以下の否定しようのない「事実」として認識されます。
- 事実1: この画像は「存在する」。
- 事実2: この画像の「形」は、縦横比が16:9の長方形である。
その上で、あなたの「こちらを、添付画像の画像のアスペクト比になるよう、出力をお願いします」という言葉が解釈されます。
この時、AIへの命令は「言葉だけで16:9の絵を描け」という曖昧なものではなくなります。AIへの命令は、「今、私が見ているこの『16:9の形』という強力な視覚的事実を、これから生成する画像に適用せよ」という、極めて具体的で、無視できない指示へと変わるのです。
これは、先ほどの例えで言うなら、耳の聞こえない人に、無言で「長方形の画用紙」を手渡して、その上で「ここに絵を描いて」とジェスチャーするようなものです。言葉は不要で、制約(画用紙の形)は明確に伝わります。
コメントを残す