3.1.2: 了解基礎知識

完成時間： 15 分鐘
先決條件： API 金鑰已設定（Module 3.1.1）

在 Cursor 中開始本模組： 執行 /start-3-1-2 以開始互動式體驗。

概覽

Module 3.1.2 教你圖片生成的機制 - 系統如何運作以及你可以控制什麼。你將了解 generate() 函式、學習長寬比和解析度，並掌握迭代的藝術。

關鍵要點： 你不需要記住參數或撰寫程式碼。自然地描述你想要什麼，AI 會選擇智慧預設值。但了解什麼是可能的有助於你獲得更好的結果。

生成如何運作

當你要求 AI 生成圖片時：

你描述你想要什麼（用自然語言）
AI 翻譯你的請求為 API 參數
generate() 函式將請求發送到 Gemini
Gemini 生成圖片（10-15 秒）
圖片儲存到你的 outputs/ 資料夾
AI 告訴你在哪裡找到它

你永遠不會直接接觸 API。AI 處理一切。

`generate()` 函式

所有圖片生成都透過 image_gen.py 流動。以下是關鍵參數：

參數	它控制什麼	預設值
`prompt`	你對圖片的描述	必填
`reference_images`	用作視覺輸入的照片	無
`aspect_ratio`	輸出圖片的形狀	1:1
`resolution`	輸出的大小/品質	1K

兩種工作方式

選項 1：讓 AI 決定

生成一張產品經理的專業頭像

AI 選擇合理的預設值（頭像用 1:1，草稿用 1K）。

選項 2：指定你想要的

生成一張專業頭像，16:9 長寬比，2K 解析度

AI 遵守你的明確請求。

兩種方法都很好用。從選項 1 開始，需要時再具體說明。

長寬比

長寬比是你圖片的形狀。根據你將使用它的地方來選擇。

比例	形狀	最適合
1:1	正方形	個人照片、Instagram 貼文、圖示
16:9	寬橫向	簡報、YouTube 縮圖、主視覺圖片
9:16	高縱向	Instagram/TikTok 限時動態、手機桌布
4:5	高矩形	Instagram 動態貼文
3:2	經典照片	傳統攝影比例
4:3	標準	舊簡報、平板電腦
21:9	超寬	電影感、橫幅

快速參考

簡報投影片？ → 16:9
社群媒體貼文？ → 1:1 或 4:5
手機模型？ → 9:16
網站主視覺？ → 16:9 或 21:9
個人照片？ → 1:1

解析度

解析度決定大小和細節層級。它不影響創意品質 - 只影響像素尺寸。

解析度	尺寸	生成時間	最適合
1K	1024px	約 20 秒	草稿、迭代、探索
2K	2048px	約 30 秒	最終輸出、簡報
4K	4096px	約 45 秒	列印、大型顯示器

解析度策略

迭代時使用 1K。 它更快，成本相同，讓你更快地探索。

最終版本使用 2K。 一旦你對創意方向滿意，以更高解析度重新生成。

只在列印時使用 4K。 除非你要大規模列印，否則 4K 是過度的。

迭代：核心工作流程

迭代是圖片生成中最重要的概念。不要希望第一次就做對，而是逐步改進。

為什麼迭代有效

Gemini 是一個「思考模型」- 它在對話中維護情境。當你說「讓它更藍」時，它知道「它」指的是什麼以及你之前討論過什麼。

單次嘗試方法（令人沮喪）：

生成完美的圖片 → 希望它是對的 → 如果不是就重新開始

迭代方法（有效）：

生成第一稿 → 「增加更多對比」 → 「將文字移高一點」 → 「完美」

如何迭代

在 AI 生成圖片後，只需要求更改：

「讓背景更暗」
「添加微妙的陰影」
「將文字改為『發布日』」
「讓它感覺更專業」
「嘗試更溫暖的色調」

AI 繼續與 Gemini 的會話，你的更改建立在先前的圖片上。

何時重新開始

有時迭代不是正確的舉動：

重大方向改變 → 使用 new_session() 重新開始
完全不同的主題 → 重新開始
想探索替代方案 → 生成變體（在 3.1.3 中涵蓋）

告訴 AI「開始新會話」或「讓我們嘗試完全不同的東西」，它會重新開始。

會話說明

會話是與 Gemini 的對話，維護情境。它的運作方式如下：

在會話內：

Gemini 記住先前的生成
你可以參考「圖片」或「它」
編輯建立在先前版本上
「思考簽名」保留推理

在會話之間：

重新開始
沒有先前工作的記憶
適合新專案或方向

會話管理

AI 自動處理會話，但你可以控制它們：

你想要什麼	說什麼
繼續改進	只需描述更改
重新開始	「開始新會話」
檢查狀態	「目前的會話是什麼？」

專業提示： 會話最適合線性改進。如果你想探索多個方向，使用變體（在 3.1.3 中涵蓋）。

實際範例

範例 1：簡報圖形

你：「為關於 AI 生產力的簡報建立主視覺圖片」

AI 生成 1:1 圖片，1K 解析度。

你：「讓它變成 16:9 以適合我的投影片」

AI 重新生成 正確的長寬比。

你：「添加文字『AI for PMs』」

AI 添加 文字覆蓋。

你：「這很完美，以 2K 重新生成」

AI 產生 最終高解析度版本。

範例 2：快速探索

你：「生成使用者角色肖像 - 企業氛圍」

AI 生成 第一版本。

你：「嘗試更休閒的外觀」

AI 改進 風格。

你：「實際上讓我們重新開始 - 改為嘗試插畫風格」

AI 開始新會話 並生成插畫版本。

最佳實踐

要做的：

從 1K 解析度開始 以更快迭代
對更改要具體 - 「讓天空更橙」勝過「改進它」
讓 AI 選擇預設值 當你沒有強烈偏好時
逐步建立 - 小更改更可預測

不要做的：

不要從 4K 開始 - 你會在要更改的圖片上浪費時間
不要一次進行多個更改 - 一次迭代一件事
不要模糊 - 「讓它更好」沒有給 AI 任何可處理的
不要放棄好圖片 - 迭代而不是重新開始

疑難排解

更改沒有被應用

確保你對要更改的內容很具體
嘗試重新表述：「將背景顏色改為海軍藍」而不是「不同的背景」
會話可能混亂了 - 重新開始

長寬比看起來不對

驗證你要求了正確的比例（16:9 vs 9:16 是常見的混淆）
某些構圖在某些比例下效果更好 - AI 可能會建議替代方案

圖片品質似乎很低

檢查解析度 - 你可能在 1K（這對草稿來說很好）
對於最終輸出，明確要求 2K 解析度

生成很慢

4K 需要約 45 秒，這感覺慢但是正常的
網路不佳可能增加延遲
API 高負載可能導致延遲

快速參考卡

長寬比：
  1:1   → 正方形（個人照片、圖示）
  16:9  → 橫向（簡報）
  9:16  → 縱向（限時動態、行動端）
  4:5   → 高（Instagram 動態）

解析度：
  1K → 快速草稿
  2K → 最終輸出
  4K → 僅列印

工作流程：
  1. 以 1K 生成
  2. 迭代直到滿意
  3. 以 2K 重新生成最終版本

下一步？

你了解了機制。現在是時候學習藝術了。

Module 3.1.3 教授提示的黃金法則 - 如何撰寫能獲得驚人結果的描述。你還將學習參考圖片和生成變體。

互動式路徑：輸入 /start-3-1-3

資源

Gemini Image Generation Documentation - 參數、長寬比、解析度選項
Gemini 3 Developer Guide - 思考簽名、多輪會話

關於本課程

由 Carl Vellotti 建立。查看 The Full Stack PM 以獲取更多 PM 建構者內容。

原始碼儲存庫： github.com/carlvellotti/claude-code-pm-course

3.1.1: 歡迎與第一次生成 3.1.3: 一致性與風格