Module 3:Nano Banana3.1.2: 了解基礎知識

3.1.2: 了解基礎知識

  • 完成時間: 15 分鐘
  • 先決條件: API 金鑰已設定(Module 3.1.1)

在 Cursor 中開始本模組: 執行 /start-3-1-2 以開始互動式體驗。

概覽

Module 3.1.2 教你圖片生成的機制 - 系統如何運作以及你可以控制什麼。你將了解 generate() 函式、學習長寬比和解析度,並掌握迭代的藝術。

關鍵要點: 你不需要記住參數或撰寫程式碼。自然地描述你想要什麼,AI 會選擇智慧預設值。但了解什麼是可能的有助於你獲得更好的結果。

生成如何運作

當你要求 AI 生成圖片時:

  1. 你描述你想要什麼(用自然語言)
  2. AI 翻譯你的請求為 API 參數
  3. generate() 函式將請求發送到 Gemini
  4. Gemini 生成圖片(10-15 秒)
  5. 圖片儲存到你的 outputs/ 資料夾
  6. AI 告訴你在哪裡找到它

你永遠不會直接接觸 API。AI 處理一切。

generate() 函式

所有圖片生成都透過 image_gen.py 流動。以下是關鍵參數:

參數它控制什麼預設值
prompt你對圖片的描述必填
reference_images用作視覺輸入的照片
aspect_ratio輸出圖片的形狀1:1
resolution輸出的大小/品質1K

兩種工作方式

選項 1:讓 AI 決定

生成一張產品經理的專業頭像

AI 選擇合理的預設值(頭像用 1:1,草稿用 1K)。

選項 2:指定你想要的

生成一張專業頭像,16:9 長寬比,2K 解析度

AI 遵守你的明確請求。

兩種方法都很好用。從選項 1 開始,需要時再具體說明。

長寬比

長寬比是你圖片的形狀。根據你將使用它的地方來選擇。

比例形狀最適合
1:1正方形個人照片、Instagram 貼文、圖示
16:9寬橫向簡報、YouTube 縮圖、主視覺圖片
9:16高縱向Instagram/TikTok 限時動態、手機桌布
4:5高矩形Instagram 動態貼文
3:2經典照片傳統攝影比例
4:3標準舊簡報、平板電腦
21:9超寬電影感、橫幅

快速參考

  • 簡報投影片? → 16:9
  • 社群媒體貼文? → 1:1 或 4:5
  • 手機模型? → 9:16
  • 網站主視覺? → 16:9 或 21:9
  • 個人照片? → 1:1

解析度

解析度決定大小和細節層級。它不影響創意品質 - 只影響像素尺寸。

解析度尺寸生成時間最適合
1K1024px約 20 秒草稿、迭代、探索
2K2048px約 30 秒最終輸出、簡報
4K4096px約 45 秒列印、大型顯示器

解析度策略

迭代時使用 1K。 它更快,成本相同,讓你更快地探索。

最終版本使用 2K。 一旦你對創意方向滿意,以更高解析度重新生成。

只在列印時使用 4K。 除非你要大規模列印,否則 4K 是過度的。

迭代:核心工作流程

迭代是圖片生成中最重要的概念。不要希望第一次就做對,而是逐步改進。

為什麼迭代有效

Gemini 是一個「思考模型」- 它在對話中維護情境。當你說「讓它更藍」時,它知道「它」指的是什麼以及你之前討論過什麼。

單次嘗試方法(令人沮喪):

生成完美的圖片 → 希望它是對的 → 如果不是就重新開始

迭代方法(有效):

生成第一稿 → 「增加更多對比」 → 「將文字移高一點」 → 「完美」

如何迭代

在 AI 生成圖片後,只需要求更改:

  • 「讓背景更暗」
  • 「添加微妙的陰影」
  • 「將文字改為『發布日』」
  • 「讓它感覺更專業」
  • 「嘗試更溫暖的色調」

AI 繼續與 Gemini 的會話,你的更改建立在先前的圖片上。

何時重新開始

有時迭代不是正確的舉動:

  • 重大方向改變 → 使用 new_session() 重新開始
  • 完全不同的主題 → 重新開始
  • 想探索替代方案 → 生成變體(在 3.1.3 中涵蓋)

告訴 AI「開始新會話」或「讓我們嘗試完全不同的東西」,它會重新開始。

會話說明

會話是與 Gemini 的對話,維護情境。它的運作方式如下:

在會話內:

  • Gemini 記住先前的生成
  • 你可以參考「圖片」或「它」
  • 編輯建立在先前版本上
  • 「思考簽名」保留推理

在會話之間:

  • 重新開始
  • 沒有先前工作的記憶
  • 適合新專案或方向

會話管理

AI 自動處理會話,但你可以控制它們:

你想要什麼說什麼
繼續改進只需描述更改
重新開始「開始新會話」
檢查狀態「目前的會話是什麼?」

專業提示: 會話最適合線性改進。如果你想探索多個方向,使用變體(在 3.1.3 中涵蓋)。

實際範例

範例 1:簡報圖形

你: 「為關於 AI 生產力的簡報建立主視覺圖片」

AI 生成 1:1 圖片,1K 解析度。

你: 「讓它變成 16:9 以適合我的投影片」

AI 重新生成 正確的長寬比。

你: 「添加文字『AI for PMs』」

AI 添加 文字覆蓋。

你: 「這很完美,以 2K 重新生成」

AI 產生 最終高解析度版本。

範例 2:快速探索

你: 「生成使用者角色肖像 - 企業氛圍」

AI 生成 第一版本。

你: 「嘗試更休閒的外觀」

AI 改進 風格。

你: 「實際上讓我們重新開始 - 改為嘗試插畫風格」

AI 開始新會話 並生成插畫版本。

最佳實踐

要做的:

  • 從 1K 解析度開始 以更快迭代
  • 對更改要具體 - 「讓天空更橙」勝過「改進它」
  • 讓 AI 選擇預設值 當你沒有強烈偏好時
  • 逐步建立 - 小更改更可預測

不要做的:

  • 不要從 4K 開始 - 你會在要更改的圖片上浪費時間
  • 不要一次進行多個更改 - 一次迭代一件事
  • 不要模糊 - 「讓它更好」沒有給 AI 任何可處理的
  • 不要放棄好圖片 - 迭代而不是重新開始

疑難排解

更改沒有被應用

  • 確保你對要更改的內容很具體
  • 嘗試重新表述:「將背景顏色改為海軍藍」而不是「不同的背景」
  • 會話可能混亂了 - 重新開始

長寬比看起來不對

  • 驗證你要求了正確的比例(16:9 vs 9:16 是常見的混淆)
  • 某些構圖在某些比例下效果更好 - AI 可能會建議替代方案

圖片品質似乎很低

  • 檢查解析度 - 你可能在 1K(這對草稿來說很好)
  • 對於最終輸出,明確要求 2K 解析度

生成很慢

  • 4K 需要約 45 秒,這感覺慢但是正常的
  • 網路不佳可能增加延遲
  • API 高負載可能導致延遲

快速參考卡

長寬比:
  1:1   → 正方形(個人照片、圖示)
  16:9  → 橫向(簡報)
  9:16  → 縱向(限時動態、行動端)
  4:5   → 高(Instagram 動態)

解析度:
  1K → 快速草稿
  2K → 最終輸出
  4K → 僅列印

工作流程:
  1. 以 1K 生成
  2. 迭代直到滿意
  3. 以 2K 重新生成最終版本

下一步?

你了解了機制。現在是時候學習藝術了。

Module 3.1.3 教授提示的黃金法則 - 如何撰寫能獲得驚人結果的描述。你還將學習參考圖片和生成變體。

互動式路徑:輸入 /start-3-1-3

資源


關於本課程

Carl Vellotti 建立。查看 The Full Stack PM 以獲取更多 PM 建構者內容。

原始碼儲存庫: github.com/carlvellotti/claude-code-pm-course