L114︱鑑別式 AI 與生成式 AI:從原理、挑戰到未來趨勢
字數 5040閱讀時間≈ 13 分鐘

type
status
date
slug
summary
tags
category
icon
password
前言
當我們打開 ChatGPT 對話時,很少人會想到:這背後到底是什麼原理?為什麼它能「寫」?為什麼有時候又會一本正經地胡說八道?
這篇文章是我在準備「iPAS AI 規劃師初級」時留下的筆記。我按照官方學習指引科目一(L114)的架構,參考 2025 年第四次初級考試的內容,加入了圖解與輔助說明,希望能幫助你在短時間內理解鑑別式 AI 與生成式 AI 的本質差異。
如果說 AI 有兩種學習方向,那就是:「學著分類」與「學著模仿」。
前者是鑑別式 AI,它的任務是判斷「這是什麼?」;後者是生成式 AI,它的任務是創造「做一個像這樣的東西」。當你搞懂這兩者的底層邏輯、技術挑戰與整合應用,你就能看穿大部分 AI 產品的運作原理。
讓我們從最根本的問題開始:AI 到底在學什麼?
第一章:AI 的兩大陣營——核心原理比較
簡單來說,AI 的學習方向只有兩種:「學著分類」跟「學著模仿」。

1.1 核心概念對照表
特性 | 鑑別式 AI (Discriminative AI) | 生成式 AI (Generative AI) |
一句話解釋 | 這是什麼?(分類) | 做一個像這樣的東西。(創造) |
核心目標 | 分類、判斷、預測 | 創造新內容 |
學習重點 | 找出一條線,切分不同類別的邊界 (Boundary) | 學會資料長什麼樣子,也就是分布 (Distribution) |
運作方式 | 給它數據→ 它告訴你這是不是貓 | 給它一堆貓照→ 它畫出一隻不存在的貓 |
1.2 怎麼知道 AI 學得好不好?(評估指標)

這是兩者最大的分水嶺。評估「選擇題」很容易,但評估「作文」很難。
- 鑑別式 AI(好評估):
- 因為有標準答案 (Ground Truth)。這張圖是貓就是貓,不是狗。
- 關鍵指標: 答對幾題 (Accuracy)、抓出多少個目標 (Recall)、抓得準不準 (Precision)。
- 生成式 AI(超難評估):
- 因為「創意」沒有標準答案。文章寫得好不好?畫得像不像?很主觀。
- 關鍵指標與盲點:
- Likelihood (可能性):這句話「常見」嗎?
- 原理: 測量這段文字符不符合統計規律。
- 盲點: 常見不代表好。 「今天天氣很好」機率很高(Likelihood 高),但很無聊;詩人寫「燃燒的雪」,機率很低(不常見),但那是好詩。
- FID (Fréchet Inception Distance):這張圖「像真圖」嗎?
- 原理: 比較「生成圖」跟「真實照片」的統計距離。分數越低越好。
- 盲點: 它看不懂畢卡索。 FID 是拿真實照片訓練的,如果你生成抽象畫,FID 會覺得這跟照片差太多而給差評。它懂「真實」,不懂「藝術」。
- BLEU:跟標準答案的字有多像?
- 原理: 算字串重疊度。常用於翻譯。
- 盲點: 太死板。 同一句話有很多種講法,只看字有沒有重疊,容易誤殺有創意但用詞不同的好回答。

1.3 常見演算法地圖

🔹 鑑別式 AI (Discriminative AI)
- 傳統機器學習 (ML): 邏輯迴歸、決策樹、SVM、隨機森林。
- 深度學習 (DL): 卷積神經網路 (CNN) (看圖高手)、BERT (理解文字高手)。
🔹 生成式 AI (Generative AI)
- 圖像生成三巨頭:
- 生成對抗網路 (GAN):
- 核心機制: 由 生成器 (Generator) 與 判別器 (Discriminator) 組成的零和賽局。
- 白話說明: 簡單說就是「左右互搏」。一個負責畫(騙人)、一個負責評(抓假),越吵越強。
- 變分自動編碼器 (VAE):
- 核心機制: 利用 編碼器 (Encoder) 將資料壓縮到 潛在空間 (Latent Space) 的機率分佈,再用 解碼器 (Decoder) 還原。
- 白話說明: 把圖片壓縮成一組「特徵密碼」,再學著把密碼還原成新圖片。
- 擴散模型 (Diffusion Models):
- 核心機制: 包含 前向擴散 (Forward Diffusion, 加噪) 與 逆向擴散 (Reverse Diffusion, 去噪) 兩個過程。
- 白話說明: 先逐步把圖片加上雜訊變成全雜訊(雪花),再練它「把雪花變回圖片」的功力(DALL-E, Midjourney 原理)。
- 文本生成:
- Transformer 架構: 基於 自注意力機制 (Self-Attention),解決了長距離依賴問題(GPT, Llama)。
第二章:大型語言模型 (LLM) 是怎麼煉成的?
要理解 GPT,我們得看它怎麼「讀」跟「寫」。這裡有四個關鍵步驟。

2.1 步驟一:切分 (Tokenization)

Q:為什麼要先有 Token 才能有 Embedding?
模型就像外國人,它看不懂整句中文,也沒辦法直接吃「字」。它必須先把文章切成它能消化的小碎塊,這些碎塊就叫 詞元 (Token)。
- 定義: 模型世界的「原子」。可能是一個字,也可能是半個詞。
- 為什麼重要? 切分 (Tokenization) 決定了模型的世界觀。
- 切得好,語意才通順。
- 切得太碎(例如繁體中文常被切很碎),詞元 (Token) 數變多,API 就要付更多錢,模型也更難理解。
2.2 步驟二:向量化 (Embedding)

Q:電腦只懂 0 與 1,怎麼懂「愛情」跟「麵包」的差別?
這就是 向量化 (Embedding) 的魔法。它把 詞元 (Token) 變成一串數字座標(向量),投射到一個巨大的語意空間裡。
- 原理: 靠「距離」來理解意義。
- 在那個空間裡,「國王」跟「皇后」的距離,會等於「男人」跟「女人」的距離。
- 提示詞 (Prompt) 的本質: 當你打字給 GPT,其實是把文字轉成這種向量座標丟給它。
2.3 步驟三:Transformer 架構

Q:為什麼 Transformer 能打敗所有對手稱霸武林?
因為它解決了兩個舊時代模型 (循環神經網路, RNN) 搞不定的痛點:
- 它能「過目不忘」 (解決長距離依賴):
- 以前的模型讀到句尾就忘了句首;Transformer 用 自注意力機制 (Self-Attention),像開上帝視角一樣,一次看完整篇文章,知道哪個字跟哪個字有關聯。
- 它能「一心多用」 (並行訓練):
- 以前要一個字一個字讀,慢到爆;Transformer 可以同時處理所有字。這讓它能吃下整個網際網路的資料,模型才有可能變這麼巨大。
2.4 步驟四:條件語言模型 (Conditional LM)

Q:LLM 到底在做什麼?
它的本質工作只有一個:預測下一個詞元 (Token)。
但它不是瞎猜,而是「看著條件 (Condition) 猜」。
我們可以把它想像成一個超級接龍遊戲,但規則分兩種:
- 無條件接龍 (Unconditional):
- 規則: 隨便講,沒有目標。
- 例子: 給它「今天」,它可能接「天氣不錯」、「心情很好」或「是星期五」。這是發散的,無法控制。
- 有條件接龍 (Conditional):
- 規則: 這才是 LLM 的核心。它是在「特定限制下」找最適合接下去的字。
- 條件 (Condition) 是什麼? 就是你給它的 提示詞 (Prompt),或是圖片、聲音的向量。
提示工程 (Prompt Engineering) 其實就是在「精準設定條件」。你給的條件越明確(例如規定格式、語氣、步驟),模型能選擇的「下一個字」範圍就縮得越小,輸出的結果就越符合你的期待。
第三章:為什麼 AI 會出包?(技術挑戰)
AI 不是神,它有天生的缺陷。

3.1 鑑別式 AI 的痛點
- 數據偏見 (Data Bias): 給它看一堆白人醫生的照片,它以後看到黑人就不認為是醫生。
- 標記成本 (Labeling Cost): 訓練 AI 看X光片,需要請專業醫生一張張標記「這裡是腫瘤」,這超級貴。

3.2 生成式 AI 的痛點
- 幻覺 (Hallucination):為什麼 GPT 會亂說話?
- 這不是它的 bug,是它的本性。
- 原因: 大型語言模型 (LLM) 的任務是 「接龍」 (接續下一個字),而不是 「查證真相」。
- 當它不知道答案時,為了完成「接龍」任務,它會依據機率生成一個「看起來很通順」的句子。它不是在說謊,它只是在一本正經地胡說八道。
- 模式崩潰 (Mode Collapse):為什麼 GAN 容易失敗?
- 原因: 生成器 (Generator) 發現了考試漏洞。它發現只要畫某種特定的圖(例如白色的貓)就能騙過判別器,於是它就偷懶,以後只畫白貓,不再嘗試畫別的。這就是 模式崩潰。
- 算力成本 (Computational Cost):為什麼 LLM 這麼貴?
- Transformer 的代價:注意力機制是個「吃資源怪獸」。
- 文章長度每增加一倍,計算量不是增加兩倍,而是平方倍 (O(n²)) 爆炸性成長。這就是為什麼長文本模型這麼難做。
- 災難性遺忘 (Catastrophic Forgetting):為什麼它會變笨?
- 當你教模型新知識(微調, Fine-tuning)時,它的腦神經(參數)會被調整。如果調太多,它可能會「學了新的,忘了舊的」,連原本會的東西都不會了。
第四章:怎麼讓 AI 更聰明?(優化技術)
既然有上述缺陷,工程師們發明了各種補丁來解決問題。

4.1 解決「變笨」與「太貴」:微調與輕量化
- 微調 (Fine-tuning):為什麼要送模型去補習?
- 定義: 在已經訓練好的 預訓練模型 (Pre-trained Model) 基礎上,使用特定領域的資料進行二次訓練,調整模型參數。
- 白話說明: 就像送資優生去上「法律衝刺班」。它本來就懂中文,但現在特訓它看懂判決書,讓它變成法律專家。
- 低秩適應 (LoRA, Low-Rank Adaptation):如何高 CP 值補習?
- 定義: 一種 參數高效微調 (PEFT) 技術。不重新訓練整個大模型(凍結權重),而是在旁插入小型矩陣進行訓練。
- 白話說明: 外掛式大腦。 不用重練整個大腦(太貴又容易忘記舊知識),只外掛一個小小的腦袋去學新知識。省錢、省算力,又不容易發生 災難性遺忘。
- 知識蒸餾 (Knowledge Distillation):如何讓小模型變聰明?
- 定義: 訓練一個小的 學生模型 (Student Model) 去模仿大的 教師模型 (Teacher Model) 的輸出機率分佈(Soft Targets)。
- 白話說明: 名師出高徒。 老師(大模型)把畢生功力濃縮教給學生(小模型)。雖然學生腦容量小,但能學到老師七八成的判斷邏輯,跑起來卻快很多。
4.2 解決「幻覺」與「失憶」:檢索增強生成 (RAG)
Q:為什麼大家都在講 RAG,而不是直接訓練更大的模型?
A:訓練太慢且昂貴。 等你把 2024 年的新聞練進去,2025 年都過一半了。模型永遠跟不上時事(知識截止點問題)。

- 檢索增強生成 (RAG, Retrieval-Augmented Generation):
- 定義: 結合 資訊檢索 (Retrieval) 與 生成模型 (Generation)。在生成回答前,先從外部知識庫(Vector Database)搜尋相關資訊,作為上下文 (Context) 餵給模型。
- 白話說明: 不讓模型死背,而是教它「翻書」。
- 當你問問題,AI 不會硬擠答案,而是先去 Google 或公司資料庫搜出資料,再整理給你。
- 優點: 資料更新只要更新資料庫就好,不用重練模型;而且因為有憑有據,大幅減少幻覺。
4.3 解決 GAN 的不穩定:WGAN

Q:怎麼治好生成器的「偷懶」?
- 傳統 GAN 的問題:
- 梯度消失 (Gradient Vanishing): 判別器像個嚴格的老師,只打「及格/不及格」(二元分類)。如果生成器一直不及格,它會不知道錯哪,最後自暴自棄。
- WGAN (Wasserstein GAN):
- 定義: 引入 Wasserstein 距離 (Earth Mover's Distance) 來替代傳統的 Jensen-Shannon 散度。
- 白話說明: 改用「評分制」。即使不及格,老師會告訴你「這次比上次進步了 5 分」。這樣 生成器 (Generator) 就知道努力的方向,不會因為 模式崩潰 而只畫一樣的東西。
4.4 讓模型更聽話:對齊人類 (Alignment)

早期的 GPT 講話很瘋,現在為什麼這麼有禮貌?這歸功於 對齊 (Alignment) 技術。
- 指令微調 (Instruction Tuning):
- 定義: 使用標註好的「指令-輸出」對數據集進行微調,讓模型學會遵循指令。
- 白話說明: 訓練它聽懂「請幫我翻譯...」、「請總結...」這種指令格式,而不只是在那邊文字接龍。
- 人類回饋強化學習 (RLHF, Reinforcement Learning from Human Feedback):
- 定義: 訓練一個 獎勵模型 (Reward Model) 來模擬人類偏好,再用 近端策略優化 (PPO) 等演算法調整語言模型。
- 白話說明: 請真人來幫 AI 的回答打分數,讓 AI 知道人類喜歡什麼風格(有禮貌、有用、不種族歧視),把 AI 訓練成人類喜歡的樣子。
- 限制式提示 (Constraints Prompting):
- 定義: 在 Prompt 中加入明確的約束條件或格式要求。
- 白話說明: 強制規定它「只能輸出 JSON 格式」或「扮演翻譯官」,用規則框住它,這不是模型變聰明,而是人類學會了怎麼控制它。
第五章:鑑別式與生成式 AI 的強強聯手
小孩子才做選擇,成熟的 AI 系統通常兩個都要。

5.1 為什麼要整合?
- 鑑別式 AI 的痛點:數據依賴 (Data Dependency)。它需要大量標註數據才能學會分類,但有些資料(如罕見疾病照片)非常稀缺。
- 生成式 AI 的強項:無中生有 (Creation)。它剛好可以創造逼真的合成數據。
- 結論: 讓生成式 AI 當「助教」產生考題,給鑑別式 AI 當「學生」練習。
5.2 核心戰術:四大整合模式與實戰應用
這部分是整合應用的精隨,我們將依照「解決什麼問題」來分類。
模式一:資料增強 (Data Augmentation)

- 解決什麼問題? 缺資料 (Data Scarcity)。 真實資料太少或太貴。
- 戰術: 利用生成式 AI 生成大量模擬數據,混合少量真實數據來訓練鑑別式 AI。
- 實戰案例:
- 醫療圖像診斷: 罕見病理影像很難取得。醫院利用 GAN 生成逼真的病理 X 光片,訓練 CNN 模型,顯著提高了診斷準確率。
模式二:半監督學習 (Semi-supervised Learning)
.jpeg?table=block&id=2c670f01-9634-80e6-b538-f069e316beeb&t=2c670f01-9634-80e6-b538-f069e316beeb)
- 解決什麼問題? 標註太貴 (Labeling Cost)。 資料很多,但請人一張張標註太花錢。
- 戰術: 利用生成式 AI 分析大量「無標籤數據」的結構,輔助鑑別式 AI 進行分類,只需少量人工標註即可。
- 實戰案例:
- 異常檢測 (工業/資安): 工廠產線大多是良品,瑕疵品很少。生成式 AI 學習良品的分布,幫助鑑別式 AI 快速抓出「長得不像良品」的異常數據,提升檢測效率。
模式三:對抗性訓練 (Adversarial Training)
.jpeg?table=block&id=2c670f01-9634-807c-ac34-cc3df1168364&t=2c670f01-9634-807c-ac34-cc3df1168364)
- 解決什麼問題? 模型太脆弱 (Robustness)。 遇到一點雜訊或干擾就判斷錯誤。
- 戰術: 魔鬼特訓。 利用生成式 AI 故意生成「對抗樣本」(針對模型弱點設計的誤導性輸入),放入訓練集中讓鑑別式 AI 練習。
- 實戰案例:
- 自動駕駛: 生成式 AI 模擬濃霧、冰雪路面等極端環境(攻擊樣本),鑑別式 AI 在虛擬環境中練習識別路況,學會怎麼在惡劣天氣下安全駕駛。
- 網路安全: 生成式 AI 模擬新型攻擊流量,讓防禦系統(鑑別式 AI)提前演練。
模式四:多模態學習 (Multimodal Learning)
.jpeg?table=block&id=2c670f01-9634-80c9-a619-ed6a2799531b&t=2c670f01-9634-80c9-a619-ed6a2799531b)
- 解決什麼問題? 感官單一。 以前 AI 只能讀字或只能看圖,無法理解複雜世界。
- 戰術: 眼耳通靈。 結合生成式 AI(處理模態轉換)與鑑別式 AI(分析理解),構建能同時聽、看、讀的系統。
- 實戰案例:
- 智慧客服: 用生成式 AI 理解用戶語音並生成回應文本,再用鑑別式 AI 分析語氣情緒(憤怒/滿意),提供高度個人化且合適的服務。
- 內容審核: 當生成式 AI 寫出廣告文案時,鑑別式 AI 同步檢查內容是否合規(有無暴力、侵權),確保輸出的安全性。
5.3 總結:整合帶來的系統優勢
透過上述模式,我們不僅解決了技術瓶頸,更創造了新的系統價值:
- 數據生成與判斷的融合: 形成「生成 → 判斷 → 優化」的閉環,不依賴外部數據也能自我進化。
- 即時分析與回饋: 支援動態環境下的快速應對(如自駕車即時路徑規劃)。
- 靈活性與適應性: 能根據不同需求動態調整流程(如客服系統根據情緒切換回應策略)。
結語
從「分類」到「創造」,從 CNN 到 Transformer,從 GAN 的左右互搏到 RAG 的知識檢索——這段旅程揭示了一個真相:AI 不是神,它只是一場機率遊戲,是演算法製造出來的大型幻覺。
但當我們批判 AI 的缺陷時,或許也該停下來想想:
- 幻覺(Hallucination)——人類同樣會一本正經地編造記憶,堅信自己從未說過的話。
- 模式崩潰(Mode Collapse)——人類也會困在舒適圈裡,只做擅長的事,拒絕嘗試新的可能。
- 災難性遺忘(Catastrophic Forgetting)——人類更是常常學了新技能就忘了舊本事,考完試便把一切全數歸還給老師。
在這些方面,生成式 AI 與我們其實並沒有本質上的不同。
甚至,它們的訓練方式也與人類極為相似:給數據、給回饋、調整行為、不斷迭代。只是 AI 學得比我們快——快到讓我們開始感到不安。
在要求 AI 不斷加速之前,我們或許該先想清楚要往哪裡去。
否則,等到事故真正發生時才發現,那位司機只是一套不知道該怎麼辦的演算法,而我們,還在假裝自己只是無辜的乘客。
相關文章
.png?table=collection&id=2ba70f01-9634-81f4-8376-000b1aff7bf1&t=2ba70f01-9634-81f4-8376-000b1aff7bf1)







