3.1.2: 了解基礎知識
- 完成時間: 15 分鐘
- 先決條件: API 金鑰已設定(Module 3.1.1)
在 Cursor 中開始本模組: 執行
/start-3-1-2以開始互動式體驗。
概覽
Module 3.1.2 教你圖片生成的機制 - 系統如何運作以及你可以控制什麼。你將了解 generate() 函式、學習長寬比和解析度,並掌握迭代的藝術。
關鍵要點: 你不需要記住參數或撰寫程式碼。自然地描述你想要什麼,AI 會選擇智慧預設值。但了解什麼是可能的有助於你獲得更好的結果。
生成如何運作
當你要求 AI 生成圖片時:
- 你描述你想要什麼(用自然語言)
- AI 翻譯你的請求為 API 參數
generate()函式將請求發送到 Gemini- Gemini 生成圖片(10-15 秒)
- 圖片儲存到你的
outputs/資料夾 - AI 告訴你在哪裡找到它
你永遠不會直接接觸 API。AI 處理一切。
generate() 函式
所有圖片生成都透過 image_gen.py 流動。以下是關鍵參數:
| 參數 | 它控制什麼 | 預設值 |
|---|---|---|
prompt | 你對圖片的描述 | 必填 |
reference_images | 用作視覺輸入的照片 | 無 |
aspect_ratio | 輸出圖片的形狀 | 1:1 |
resolution | 輸出的大小/品質 | 1K |
兩種工作方式
選項 1:讓 AI 決定
生成一張產品經理的專業頭像AI 選擇合理的預設值(頭像用 1:1,草稿用 1K)。
選項 2:指定你想要的
生成一張專業頭像,16:9 長寬比,2K 解析度AI 遵守你的明確請求。
兩種方法都很好用。從選項 1 開始,需要時再具體說明。
長寬比
長寬比是你圖片的形狀。根據你將使用它的地方來選擇。
| 比例 | 形狀 | 最適合 |
|---|---|---|
| 1:1 | 正方形 | 個人照片、Instagram 貼文、圖示 |
| 16:9 | 寬橫向 | 簡報、YouTube 縮圖、主視覺圖片 |
| 9:16 | 高縱向 | Instagram/TikTok 限時動態、手機桌布 |
| 4:5 | 高矩形 | Instagram 動態貼文 |
| 3:2 | 經典照片 | 傳統攝影比例 |
| 4:3 | 標準 | 舊簡報、平板電腦 |
| 21:9 | 超寬 | 電影感、橫幅 |
快速參考
- 簡報投影片? → 16:9
- 社群媒體貼文? → 1:1 或 4:5
- 手機模型? → 9:16
- 網站主視覺? → 16:9 或 21:9
- 個人照片? → 1:1
解析度
解析度決定大小和細節層級。它不影響創意品質 - 只影響像素尺寸。
| 解析度 | 尺寸 | 生成時間 | 最適合 |
|---|---|---|---|
| 1K | 1024px | 約 20 秒 | 草稿、迭代、探索 |
| 2K | 2048px | 約 30 秒 | 最終輸出、簡報 |
| 4K | 4096px | 約 45 秒 | 列印、大型顯示器 |
解析度策略
迭代時使用 1K。 它更快,成本相同,讓你更快地探索。
最終版本使用 2K。 一旦你對創意方向滿意,以更高解析度重新生成。
只在列印時使用 4K。 除非你要大規模列印,否則 4K 是過度的。
迭代:核心工作流程
迭代是圖片生成中最重要的概念。不要希望第一次就做對,而是逐步改進。
為什麼迭代有效
Gemini 是一個「思考模型」- 它在對話中維護情境。當你說「讓它更藍」時,它知道「它」指的是什麼以及你之前討論過什麼。
單次嘗試方法(令人沮喪):
生成完美的圖片 → 希望它是對的 → 如果不是就重新開始迭代方法(有效):
生成第一稿 → 「增加更多對比」 → 「將文字移高一點」 → 「完美」如何迭代
在 AI 生成圖片後,只需要求更改:
- 「讓背景更暗」
- 「添加微妙的陰影」
- 「將文字改為『發布日』」
- 「讓它感覺更專業」
- 「嘗試更溫暖的色調」
AI 繼續與 Gemini 的會話,你的更改建立在先前的圖片上。
何時重新開始
有時迭代不是正確的舉動:
- 重大方向改變 → 使用
new_session()重新開始 - 完全不同的主題 → 重新開始
- 想探索替代方案 → 生成變體(在 3.1.3 中涵蓋)
告訴 AI「開始新會話」或「讓我們嘗試完全不同的東西」,它會重新開始。
會話說明
會話是與 Gemini 的對話,維護情境。它的運作方式如下:
在會話內:
- Gemini 記住先前的生成
- 你可以參考「圖片」或「它」
- 編輯建立在先前版本上
- 「思考簽名」保留推理
在會話之間:
- 重新開始
- 沒有先前工作的記憶
- 適合新專案或方向
會話管理
AI 自動處理會話,但你可以控制它們:
| 你想要什麼 | 說什麼 |
|---|---|
| 繼續改進 | 只需描述更改 |
| 重新開始 | 「開始新會話」 |
| 檢查狀態 | 「目前的會話是什麼?」 |
專業提示: 會話最適合線性改進。如果你想探索多個方向,使用變體(在 3.1.3 中涵蓋)。
實際範例
範例 1:簡報圖形
你: 「為關於 AI 生產力的簡報建立主視覺圖片」
AI 生成 1:1 圖片,1K 解析度。
你: 「讓它變成 16:9 以適合我的投影片」
AI 重新生成 正確的長寬比。
你: 「添加文字『AI for PMs』」
AI 添加 文字覆蓋。
你: 「這很完美,以 2K 重新生成」
AI 產生 最終高解析度版本。
範例 2:快速探索
你: 「生成使用者角色肖像 - 企業氛圍」
AI 生成 第一版本。
你: 「嘗試更休閒的外觀」
AI 改進 風格。
你: 「實際上讓我們重新開始 - 改為嘗試插畫風格」
AI 開始新會話 並生成插畫版本。
最佳實踐
要做的:
- 從 1K 解析度開始 以更快迭代
- 對更改要具體 - 「讓天空更橙」勝過「改進它」
- 讓 AI 選擇預設值 當你沒有強烈偏好時
- 逐步建立 - 小更改更可預測
不要做的:
- 不要從 4K 開始 - 你會在要更改的圖片上浪費時間
- 不要一次進行多個更改 - 一次迭代一件事
- 不要模糊 - 「讓它更好」沒有給 AI 任何可處理的
- 不要放棄好圖片 - 迭代而不是重新開始
疑難排解
更改沒有被應用
- 確保你對要更改的內容很具體
- 嘗試重新表述:「將背景顏色改為海軍藍」而不是「不同的背景」
- 會話可能混亂了 - 重新開始
長寬比看起來不對
- 驗證你要求了正確的比例(16:9 vs 9:16 是常見的混淆)
- 某些構圖在某些比例下效果更好 - AI 可能會建議替代方案
圖片品質似乎很低
- 檢查解析度 - 你可能在 1K(這對草稿來說很好)
- 對於最終輸出,明確要求 2K 解析度
生成很慢
- 4K 需要約 45 秒,這感覺慢但是正常的
- 網路不佳可能增加延遲
- API 高負載可能導致延遲
快速參考卡
長寬比:
1:1 → 正方形(個人照片、圖示)
16:9 → 橫向(簡報)
9:16 → 縱向(限時動態、行動端)
4:5 → 高(Instagram 動態)
解析度:
1K → 快速草稿
2K → 最終輸出
4K → 僅列印
工作流程:
1. 以 1K 生成
2. 迭代直到滿意
3. 以 2K 重新生成最終版本下一步?
你了解了機制。現在是時候學習藝術了。
Module 3.1.3 教授提示的黃金法則 - 如何撰寫能獲得驚人結果的描述。你還將學習參考圖片和生成變體。
互動式路徑:輸入 /start-3-1-3
資源
- Gemini Image Generation Documentation - 參數、長寬比、解析度選項
- Gemini 3 Developer Guide - 思考簽名、多輪會話
關於本課程
由 Carl Vellotti 建立。查看 The Full Stack PM 以獲取更多 PM 建構者內容。