ケーススタディ：Gemini nano banana 9/19以降の仕様変更によるアスペクト比固定の状態での16:9での画像生成ワークアラウンド。

治る兆しが見えない、アスペクト比をプロンプトで指定しても1:1で出力されてしまうGemini nano bananaのアスペクト比固定問題。

ワークアラウンドを見つけたのでメモに残しておきます。

この措置は、無料アカウントでもAI Premiumでも有効でした。

まずはプロンプトを指定。

以下のようなプロンプトをGemini 2.5 Flashで指定します。

Anime / manga style illustration (moe-inspired).
Aspect ratio: 16:9, widescreen.

**Setting:**

* Rooftop garden in London.
* Background prominently features St. Paul's Cathedral.
* Evening cityscape with soft ambient lighting and reflections on glass surfaces.

**Character:**

* Woman wearing glasses.
* Emerald-themed gemstone-inspired dress with silver accents.
  * Shiny, silky material.
  * Shoulder-baring and navel-baring design, elegant and natural.
  * Skirt with a side slit, revealing sparkling white pantyhose with subtle glitter.
  * Subtle embroidery or frills to suggest sparkling facets.
* Small emerald accessories.
* Hair and clothing gently moved by rooftop breeze.

**Scene / Action:**

* Upper body and legs in focus, highlighting the slit and pantyhose.
* Adjusting hair, holding a bouquet or gesturing naturally.
* Dress and city lights reflecting softly in ambient lighting.

このように、指定しても生成結果は変わらず。以下の、正方形の画像が出てきます。

そこで、以下の手順を踏みます。

回避策

必要なアスペクト比の無地の画像を用意。

16:9、無地の画像を用意しました。

改めてのプロンプト指示。

Anime / manga style illustration (moe-inspired).
Aspect ratio: 16:9, widescreen.

**Setting:**

* Rooftop garden in London.
* Background prominently features St. Paul's Cathedral.
* Evening cityscape with soft ambient lighting and reflections on glass surfaces.

**Character:**

* Woman wearing glasses.
* Emerald-themed gemstone-inspired dress with silver accents.
  * Shiny, silky material.
  * Shoulder-baring and navel-baring design, elegant and natural.
  * Skirt with a side slit, revealing sparkling white pantyhose with subtle glitter.
  * Subtle embroidery or frills to suggest sparkling facets.
* Small emerald accessories.
* Hair and clothing gently moved by rooftop breeze.

**Scene / Action:**

* Upper body and legs in focus, highlighting the slit and pantyhose.
* Adjusting hair, holding a bouquet or gesturing naturally.
* Dress and city lights reflecting softly in ambient lighting.

こちらを、添付画像の画像のアスペクト比になるよう、出力をお願いします。

こちらを、添付画像の画像のアスペクト比になるよう、出力をお願いします。

この一文を最後に加えるのが重要です。

そうした上で画像生成を行います。

結果、16:9のアスペクト比で生成されました。

余談：なぜこれが可能なのか

一つの仮説を、Gemini自身に聞いてみたところ、以下の興味深い仮説が得られました。

これには、いくつかの仮説が考えられますが、最も有力なのは以下の**「マルチモーダル・コンテキスト仮説」**です。

仮説：マルチモーダル・コンテキスト仮説

現在のGeminiは、単一の知性ではなく、テキスト、画像、音声など、複数の種類の情報（モダリティ）を処理するための、異なる経路や専門分野を持つ、複雑なシステムです。この行動は、このシステムの異なる経路を意図的に利用した、と言えます。

1. テキストのみの指示（失敗した経路）

「アスペクト比 16:9」と言葉で指示したとき、リクエストはAIの**「テキスト解釈」の部分に送られます。しかし、現在の画像生成モデル（nano banana）は、効率化のために、この部分の解釈能力が意図的に制限**されています。つまり、AIはあなたの言葉を「読み」はしますが、「アスペクト比」という技術的指示を画像生成に反映させるための命令系統が、意図的に断たれているのです。

これは、耳の聞こえない人に、口頭で「長方形の絵を描いて」と頼んでいるようなものです。言葉は届きません。

2. 画像を添付した指示（成功した経路）

しかし、無地の16:9の画像を添付したとき、事態は一変します。リクエストは、AIの**「視覚認識」の部分を通過し、テキストと画像の両方を同時に解釈する、より高度な「マルチモーダル解釈」**の経路に入ります。

この経路では、AIはまず添付された画像を「見て」、その**特性（プロパティ）**を理解しようとします。AIにとって、その無地の画像は、以下の否定しようのない「事実」として認識されます。

事実1: この画像は「存在する」。

事実2: この画像の「形」は、縦横比が16:9の長方形である。

その上で、あなたの「こちらを、添付画像の画像のアスペクト比になるよう、出力をお願いします」という言葉が解釈されます。

この時、AIへの命令は「言葉だけで16:9の絵を描け」という曖昧なものではなくなります。AIへの命令は、「今、私が見ているこの『16:9の形』という強力な視覚的事実を、これから生成する画像に適用せよ」という、極めて具体的で、無視できない指示へと変わるのです。

これは、先ほどの例えで言うなら、耳の聞こえない人に、無言で「長方形の画用紙」を手渡して、その上で「ここに絵を描いて」とジェスチャーするようなものです。言葉は不要で、制約（画用紙の形）は明確に伝わります。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ケーススタディ：Gemini nano banana 9/19以降の仕様変更によるアスペクト比固定の状態での16:9での画像生成ワークアラウンド。

まずはプロンプトを指定。

回避策

必要なアスペクト比の無地の画像を用意。

改めてのプロンプト指示。

余談：なぜこれが可能なのか

仮説：マルチモーダル・コンテキスト仮説

1. テキストのみの指示（失敗した経路）

2. 画像を添付した指示（成功した経路）

PHP-FPMでNextcloudを動作させるための手順。

iPhone、機種変

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル