AI 技術/2026.03.29 發佈

NLP

字數 5501閱讀時間 14 分鐘
NLP

type
status
date
slug
summary
tags
category
icon
password
人類的語言是極其低效率且充滿歧義的編碼。同一個詞「bank」,在金融情境中是銀行,在地理情境中是河岸。對人類來說,這依靠大腦中數十億年的進化直覺來分辨;但對電腦而言,它最初只是一連串的二進位代碼。自然語言處理(Natural Language Processing, NLP)的終極目標,就是將這些模糊的「人類訊號」轉換為電腦可運算、可推理、甚至可創作的「數位邏輯」。
一、NLP 的核心疆域:理解與生成的二重奏1.1 分類的意義:追求「對不對」還是「好不好」?1.2 技術底層:機器處理語言的三個任務層級1.3 開發者的最終目標:解決哪種商業問題?模組一:自然語言理解 (NLU)模組二:自然語言生成 (NLG)二、演進史:從規則編碼到預訓練時代2.1 第一世代:規則式方法 (1980s - 1990s)2.2 第二世代:統計語言模型 (1990s - 2010s)① N-gram 語言模型 (N-gram Language Model)② TF-IDF 詞頻-逆文件頻率 (Term Frequency-Inverse Document Frequency)2.3 第三世代:深度學習時代 (2010s - 2018)2.4 第四世代:預訓練時代 (2018 至今)三、拆解 Token、向量與注意力的連鎖反應3.1 現代大模型的秘密:BPE 子詞切分3.2 詞形正規化:Lemmatization vs. Stemming3.3 靜態向量三劍客 (Word2Vec, GloVe, FastText)① Word2Vec:靠鄰居猜字的「算命師」② GloVe:看透全局的「統計學家」③ FastText:連骨頭都看的「解剖學家」3.4 終極進化:Self-Attention (Q, K, V) 🍎 為什麼會變成「水果」而不是「手機」?🚀 進階:不只看一眼,而是全方位掃描 (Multi-Head Attention)四、巨人誕生:BERT vs. GPT 的終極決戰4.1 BERT:全方位理解型選手 (The Master of Reading) 📖4.2 GPT:流暢生成型選手 (The Master of Storytelling) ✍️4.3 兩大巨人的巔峰對決表4.1 BERT:雙向掃描的「理解之王」4.2 GPT:自回歸生成的「預測大師」五、

一、NLP 的核心疆域:理解與生成的二重奏

NLP 不就是把文字丟進模型裡跑嗎?為什麼還需要分 NLU 和 NLG?這對開發者來說有什麼實質意義?
NLP 就是讓電腦「讀懂」並「說話」的技術。NLU 負責理解(像大腦聽懂指令),NLG 負責生成(像嘴巴回話)。區分兩者能讓開發者按需求選工具,精準省時又不浪費資源!
一張極簡灰背景的擬人化貓咪資訊圖表,以幽默方式解釋 NLP。左側為「NLU 理解」:一隻戴眼鏡的橘貓看著手機,思維氣泡顯示將毛線球轉化為小魚。右側為「NLG 生成」:橘貓一臉不屑地在發光鍵盤上敲字,周圍環繞詩歌、笑話和智慧家庭圖示。標題為「自然語言理解與生成的貓言貓語大揭秘」。
一張極簡灰背景的擬人化貓咪資訊圖表,以幽默方式解釋 NLP。左側為「NLU 理解」:一隻戴眼鏡的橘貓看著手機,思維氣泡顯示將毛線球轉化為小魚。右側為「NLG 生成」:橘貓一臉不屑地在發光鍵盤上敲字,周圍環繞詩歌、笑話和智慧家庭圖示。標題為「自然語言理解與生成的貓言貓語大揭秘」。

1.1 分類的意義:追求「對不對」還是「好不好」?

為什麼我們要特地把 NLP 切分成 NLU(理解)與 NLG(生成)?這不只是學術上的分類,更是因為兩者的「成功定義」完全不同。當你作為開發者在評估模型時,這套標準能幫你決定資源該投在哪:
  1. NLU 追求的是「對不對」
    1. 這是一個關於「精確率」與「召回率」的比賽。當使用者說「我要退貨」,模型必須 100% 精準地辨識出意圖,不能把退貨誤判為下單。在這裡,我們容不下模糊空間,目標是從成千上萬種說法中,找到唯一的正確答案。
  1. NLG 追求的是「好不好」
    1. 這是一個關於「流暢度」與「相關性」的挑戰。AI 回覆使用者的文字,沒有絕對的標準答案。重點在於語氣是否自然?邏輯是否連貫?內容是否真的解決了問題?在這裡,我們追求的是一種人性化的溝通體驗。

1.2 技術底層:機器處理語言的三個任務層級

一張標題為「機器語言處理三層次」的專業迷因圖。分為三個區塊:1. 理解(Understanding):一隻憂鬱貓咪抱怨不舒服,AI 嘗試解析情感;2. 處理(Processing):橘貓在複雜的神經網絡與邏輯運算中思考暗示;3. 生成(Generating):橘貓自信地拿著熱水杯說「多喝熱水!」,旁邊配上完美回應的成功男孩梗圖。
一張標題為「機器語言處理三層次」的專業迷因圖。分為三個區塊:1. 理解(Understanding):一隻憂鬱貓咪抱怨不舒服,AI 嘗試解析情感;2. 處理(Processing):橘貓在複雜的神經網絡與邏輯運算中思考暗示;3. 生成(Generating):橘貓自信地拿著熱水杯說「多喝熱水!」,旁邊配上完美回應的成功男孩梗圖。
要達成上述目標,NLP 系統在技術上必須經歷三個遞進的處理層級,這也是所有 NLP 模型的共同基石:
  1. 理解 (Understand):這是 NLU 的主戰場。機器必須從混亂的非結構化文字中,解析出語法結構(Syntax)與語意邏輯(Semantics)。這涉及辨識語者的意圖、偵測情緒,並從背景知識中提取出隱含的邏輯。
  1. 處理 (Process):將人類語言轉換為電腦可操作的結構。這通常涉及「特徵提取」,例如將句子變成高維度向量,讓機器能在座標系中計算詞語間的距離。
  1. 生成 (Generate):NLG 的終極目標。根據處理後的語意座標,模型必須重新建構語句,產出自然、流暢且具備邏輯的文字。這不只是拼湊單字,還需要考慮上下文的一致性(Coherence)。

1.3 開發者的最終目標:解決哪種商業問題?

在實務應用中,我們會根據任務屬性來選擇技術路徑。下表整理了 NLP 的核心任務分佈:

模組一:自然語言理解 (NLU)

核心目標: 將非結構化文字轉化為電腦可處理的標籤、類別或數據。
任務名稱
技術細節 (底層邏輯)
實務應用場景
意圖辨識 (Intent Recognition)
把語句分類到預設標籤(如:詢問天氣、退貨)
客服機器人分流、語音指令解析。
命名實體辨識 (NER)
從文本中提取人名、地名、機構。
法律文件自動標記、醫囑資訊抓取。
情感分析 (Sentiment Analysis)
判斷語氣是正向、負向還是中立。
社群輿情監控、電商評論自動彙整。

模組二:自然語言生成 (NLG)

核心目標: 根據已理解的資訊或數據,重新組織成人類可讀的流暢文字。
任務名稱
技術細節 (底層邏輯)
實務應用場景
自動摘要 (Summarization)
壓縮長篇大論,只保留核心重點。
新聞快報、會議記錄自動摘要。
對話生成 (Response Generation)
根據上下文邏輯,產生流暢的回覆。
ChatGPT 對答、虛擬助理互動。
機器翻譯 (Machine Translation)
跨語言轉換:語意對齊並重新建構語句。
跨國文件翻譯、即時語音翻譯。

二、演進史:從規則編碼到預訓練時代

既然現在的 GPT 這麼強,我們還有必要學規則式方法(Rule-based)或是統計模型(N-gram)嗎? 那不都以前的東西了?學最新的不就好了?
即使 GPT 強大,學習基礎技術仍有三大核心意義:
  • 技術底層邏輯:現代 Transformer 是從詞向量、統計模型演化而來。不學基礎,難以理解模型為何出錯或如何調優。
  • 實務場景限制:在斷網、低運算設備或高隱私需求下,輕量的傳統方法是唯一解。
  • 混合式架構:最強的系統通常是「規則+模型」。用規則過濾敏感資訊,再用 GPT 生成內容,兼具安全與靈活性。
這也是為什麼 iPAS AI 規劃師 鑑定仍將這些列為必考重點!
notion image

2.1 第一世代:規則式方法 (1980s - 1990s)

這是一個「語言學家治國」時代。人類手動編寫語法辭典與邏輯規則。系統不具備真正的智能,僅是按照「如果...就...(If-Then)」的邏輯運行。
  • 代表技術ELIZA、專家系統。
  • 優勢:高可解釋性。系統若判斷錯了,你可以精準找到是哪條規則寫歪了。
  • 痛點:維護成本極高。語言是活的,當新詞(如「很雷」)出現時,系統必須手動更新,否則就會徹底失效。
經典案例:ELIZA (1966 年) 這是史上第一個聊天機器人,它模擬的是一位「心理醫生」。它完全沒有智慧,只是利用關鍵字替換來反問使用者。
  • 使用者:「我最近跟我媽吵架了。」
  • ELIZA 規則:只要看到「我媽」,就回覆「再多跟我聊聊你的家人吧」。 結果:使用者會覺得「它聽得懂我在說什麼」,但其實它只是在玩文字接龍。
規則式方法 (Rule-based) 現在還有人用嗎?
有的!雖然 GPT 很強,但規則式方法在「準確度」與「成本」上有不可取代的地位。
  1. 身分證字號檢查 💳:這是最經典的應用。透過預設的數學邏輯(如:首字母代表地區、檢查碼運算)來驗證格式。這種「非黑即白」的任務,用規則式處理比 AI 亂猜更精準。
  1. LINE 官方帳號機器人 🤖:許多企業的自動回覆系統仍使用「關鍵字觸發」。當使用者輸入特定詞彙(如:門市資訊、運費),系統便立即丟出預設內容,反應速度極快且成本極低。

2.2 第二世代:統計語言模型 (1990s - 2010s)

在深度學習出現之前,機器讀語言靠的是統計規律,也就是數算詞出現的頻率。核心概念是:如果一個詞組合在過去經常出現,那它在未來出現的機率也比較高。
為什麼放棄規則,改學機率?
因為人類語言太難預測了!規則寫再多也寫不完例外。統計派不再強迫電腦「理解」語法,而是讓它當個「算命師」:根據過去發生的數據,預測下一個字最可能出現什麼。這就是從「教電腦釣魚」轉向「給電腦看一萬張魚的照片」的過程。

① N-gram 語言模型 (N-gram Language Model)

  • 核心邏輯:靠前面幾個詞預測下一個詞的機率。N 是你往回看的「窗格大小」。
  • 致命限制長距離依賴問題 (Long-range Dependencies)。N-gram 只能看固定長度的窗格。句子太長時,它會「瞬間斷片」,忘記句子開頭說了什麼。
  • 痛點:資料稀疏問題。當 N 增大時,許多詞組組合在語料庫中從未出現,機率會變為零。
Google 搜尋建議。當你輸入「台北」,系統會根據統計機率跳出「台北天氣」、「台北捷運」,因為這些組合在數據庫中出現次數最多。

② TF-IDF 詞頻-逆文件頻率 (Term Frequency-Inverse Document Frequency)

一張標題為「TF-IDF 的奧義:從餃子看懂關鍵詞權重!」的趣味資訊圖表。三格漫畫形式說明:1. 詞頻 (TF):橘白貓面對滿桌普通餃子,暗示出現頻率高不代表最重要;2. 逆向檔案頻率 (IDF):貓咪發現稀有的綠色抹茶餃子,象徵獨特性;3. TF-IDF 核心:貓咪舉起閃閃發光的抹茶餃子,公式顯示「高 TF x 高 IDF = 超重要」,結論是找出最獨特的那顆餃子。
一張標題為「TF-IDF 的奧義:從餃子看懂關鍵詞權重!」的趣味資訊圖表。三格漫畫形式說明:1. 詞頻 (TF):橘白貓面對滿桌普通餃子,暗示出現頻率高不代表最重要;2. 逆向檔案頻率 (IDF):貓咪發現稀有的綠色抹茶餃子,象徵獨特性;3. TF-IDF 核心:貓咪舉起閃閃發光的抹茶餃子,公式顯示「高 TF x 高 IDF = 超重要」,結論是找出最獨特的那顆餃子。
  • 核心邏輯:它是「字詞計數器」。在單篇出現多(TF 高),但在所有文章中罕見(IDF 高),則該字最能代表主題。
  • 沒辦法處理「一詞多義」:如果你搜尋「蘋果」,TF-IDF 分不出你是在找吃的「水果」,還是在找「手機」。它只會數次數,不會看上下文。
  • 完全不懂「意思」 (語意鴻溝):在 TF-IDF 眼中,「貓咪」和「喵星人」是兩個截然不同的東西,分數完全不互通。如果你搜尋「貓咪」,它可能漏掉所有寫「喵星人」的超棒文章。
  • 停用詞(Stopwords)過濾
    • 想像你在聽一場演講,講者每講三句話就加一個「然後」、「那個」。這些詞對理解演講核心毫無貢獻,卻佔據了你的聽力帶寬。在 NLP 中,這就是「停用詞」。
    • 核心功能:去除如「的」、「了」、「在」或英文的 "is", "the" 等高頻但語意貢獻低的詞。
    • 減少運算量:過濾掉佔文本 30%-50% 的廢話,能讓模型訓練快上一倍。
傳統 SEO 玩法:在那個 Google 還沒像現在這麼聰明的時代(大約 2010 年代以前),TF-IDF 是搜尋引擎排名的核心技術之一。網站管理員會計算競爭對手的網頁中,哪些關鍵字的 TF-IDF 分數最高,然後在自己的網頁裡刻意增加這些「稀有且重要」的詞彙,好讓 Google 覺得這篇文章「最有重點」。

2.3 第三世代:深度學習時代 (2010s - 2018)

N-gram 跟 RNN、LSTM 都是健忘的金魚腦,那他們差在哪裡?
從統計時代(N-gram)跨越到深度學習時代(RNN/LSTM),最關鍵的差別在於電腦看待語言的方式從「數次數」變成了「向量化與狀態記憶」。
  • 統計時代 (N-gram):像是一個只有幾秒記憶的收銀員。他只記得你剛剛說的最後 1-2 個字。如果你說了一長串需求,他只會根據最後一個字來猜你要什麼。
  • 深度學習時代 (RNN/LSTM):像是一個帶著筆記本的速記員。他會把讀過的每個字轉化成「隱藏狀態(Hidden State)」,這就像是在筆記本上記錄摘要。雖然筆記本空間有限,寫太長會模糊(梯度消失),但他試圖保證整句話的語意是連貫的。
一張標題為「RNN vs LSTM:記憶力大對決!」的貓咪教學圖表。左側 RNN 被形容為「短期記憶金魚腦」,顯示一隻拿著揉皺紙條、驚慌失措的貓,思維氣泡裡只有 3 秒記憶的金魚,象徵處理長序列會斷片。右側 LSTM 被形容為「學霸筆記王」,顯示一隻戴眼鏡、拿著井然有序筆記本的學霸貓,思維氣泡裡有大腦與長期記憶庫,象徵其具備遺忘門與記憶門機制,能有效處理長序列。
一張標題為「RNN vs LSTM:記憶力大對決!」的貓咪教學圖表。左側 RNN 被形容為「短期記憶金魚腦」,顯示一隻拿著揉皺紙條、驚慌失措的貓,思維氣泡裡只有 3 秒記憶的金魚,象徵處理長序列會斷片。右側 LSTM 被形容為「學霸筆記王」,顯示一隻戴眼鏡、拿著井然有序筆記本的學霸貓,思維氣泡裡有大腦與長期記憶庫,象徵其具備遺忘門與記憶門機制,能有效處理長序列。
神經網路進入戰場,RNN 與 LSTM 成為霸主。在這個時期,電腦不再只是數算機率,而是試圖模仿人類大腦的「隱藏狀態(Hidden State)」,將語言視為有順序的時間序列,讓模型具備了初步的記憶力。
  • RNN (循環神經網路):初步的記憶力
    • 核心邏輯:它像是一個帶著筆記本的速記員,讀到每個字都會在筆記本上記錄摘要(隱藏狀態),試圖把前面的語意帶到後面的句子。
    • 致命傷梯度消失 (Gradient Vanishing)。它的筆記本空間有限,一旦句子超過 20 個字,後面的記錄就會蓋掉前面的,導致它「看到後面就忘了前面」。
    • 應用:自動選字、語音辨識
  • LSTM (長短期記憶網路):進化的記憶開關
    • 白話差別:它是 RNN 的升級版。LSTM 在筆記本上加裝了「門控機制(Gates)」,像是有立可帶(忘記門)和螢光筆(輸入門)。它能智慧地判斷哪些廢話該忘記、哪些重點該長久記住,因此能處理比 RNN 更長的句子。
    • 這樣可以把重要的資訊「鎖」在記憶裡,傳遞到 100 個字甚至更遠之後。又稱長距離依賴 (Long-term Dependencies)。

2.4 第四世代:預訓練時代 (2018 至今)

為什麼有了 LSTM,我們最後還是發明了更強大的 Transformer (ChatGPT 的祖先)?
自注意力機制(Self-Attention)解決了 LSTM 的順序依賴資訊損耗問題。
  1. 並行處理:LSTM 像排隊領餐,必須一個接一個讀;自注意力則像一眼掃視全場,所有字同時運算,大幅提升效率。
  1. 瞬移對焦:無論兩個字離多遠,自注意力都能直接建立聯繫,不必像 LSTM 經過長距離傳遞導致記憶模糊。
Transformer 出現,終結了「排隊讀字」的時代。
  • 突破點:並行運算與自注意力機制。模型不再需要逐字處理,而是一次掃描全局,這讓訓練大規模數據成為可能。
  • 核心思維:不再只看「前一個字」,而是計算「全文字之間」的關聯性權重。
過往的技術讓我們解決了「記憶」問題,但 Transformer 帶領我們進入了「理解關係」的境界。究竟電腦是如何把一段文字拆解、轉換並產生這種神奇的「注意力」?我們將在第三章拆解它的底層黑盒子。

三、拆解 Token、向量與注意力的連鎖反應

如果說 NLP 是一座自動化工廠,那麼這一章就是這座工廠的「生產線核心」。當我們輸入一段文字,它並不是直接被丟進黑盒子,而是經歷了一連串精密的物理變換。
既然電腦已經有強大的 CPU 了,為什麼不能直接讀取文字檔?為什麼一定要把句子拆得稀巴爛?
因為電腦的本質是「大型計算機」。文字對它而言太模糊、太感性。我們必須先透過「剪裁(Tokenization)」把語言變成零件,再透過「座標(Embedding)」把零件變成數字,最後用「雷達(Attention)」讓數字之間產生連結。這三個步驟缺一不可,這就是機器理解語言的連鎖反應。
在深入探討之前,我們必須建立一個共識:
  1. Token 是零件:電腦不讀句子,它讀的是被剪碎後的符號。透過子詞(Subword)技術,我們解決了遇到新詞就當機的問題。
  1. 向量是座標:電腦不認得「貓」,它只認得座標 [0.6, 0.9, ...]。讓相似的詞在空間中「住在一起」,是機器理解的第一步。
📍
關於切分 (Tokenization) 跟向量化 (Embedding) 的基礎說明,可參考站內相關文章段落

3.1 現代大模型的秘密:BPE 子詞切分

一張標題為「文本分詞方法大揭秘:從死記硬背到 AI 絕招」的資訊圖表。分為三個階段:左側「詞彙方法」顯示一隻戴學士帽的貓在死背書堆,暗示效率低;中間「字符方法」顯示一隻貓幼兒玩字母積木,暗示只認字母不懂語意;右側「子詞方法 (BPE)」顯示一隻戴高科技風鏡的貓手持透明平板,被形容為現代大模型的秘密武器。
一張標題為「文本分詞方法大揭秘:從死記硬背到 AI 絕招」的資訊圖表。分為三個階段:左側「詞彙方法」顯示一隻戴學士帽的貓在死背書堆,暗示效率低;中間「字符方法」顯示一隻貓幼兒玩字母積木,暗示只認字母不懂語意;右側「子詞方法 (BPE)」顯示一隻戴高科技風鏡的貓手持透明平板,被形容為現代大模型的秘密武器。
電腦不讀「句子」,它讀的是被剪碎後的零件,稱為 Token。但怎麼剪,是一門大學問!子詞切分(Subword segmentation)是目前最主流的解決方案。
BPE (Byte Pair Encoding) 是其中一種「積木化」的分詞技術。它會統計語料中出現頻率最高的字符組合,將常見的詞保留為完整積木,將罕見詞拆解成基礎組件(Subwords)。
  • 全詞法 (Word-based):像是死背單字的學生。
    • 拆解結果:[抹茶煎餃](如果字典沒這詞,它就直接當機 😵)。
  • 字元法 (Character-based):像是只認字母的幼兒。
    • 拆解結果:[抹][茶][煎][餃]。雖然不會當機,但每個字都太碎了,電腦很難一眼看出「抹茶」是一個完整的味道。
  • 子詞法 (Subword-based / BPE):這就是現代大模型的秘密武器。
    • 拆解結果:[抹茶] + [煎] + [餃]。它保有了「抹茶」這個有意義的單位,同時又把「煎」跟「餃」拆開,只要認識這些「積木」,它就能拼湊出大致語意,大幅提升了模型的泛化能力。

3.2 詞形正規化:Lemmatization vs. Stemming

當機器看到 "running", "ran", "runs",它應該知道這都是同一個動作。
  • 詞幹提取 (Stemming)
    • 暴力剪裁。如將 "running" 剪成 "run"。速度快,但可能產出不存在的字(會把 flies 剪成 fli)。
    • 如果使用者搜尋 fishing,詞幹提取會把它變成 fish。這樣系統就能同時抓到包含 fish、fishedfisher的文章。這種「寧可錯殺,不可放過」的特性,有助於提高召回率 (Recall)
  • 詞形還原 (Lemmatization)
    • 依賴字典與語法規則還原為原型(如 saw根據語境還原為 see)。這對深度語意分析至關重要。
特性
詞幹提取 (Stemming)
詞形還原 (Lemmatization)
技術手段
規則剪裁(去字尾)✂️
字典查詢、語法分析 📖
準確度
較低(可能產生 fli 這種怪字)
高(還原為真正的原型 fly
速度
極快 🏎️
較慢 🚶
典型應用
大規模搜尋引擎、快速過濾
聊天機器人、精準翻譯
停用詞去哪裡了?在深度學習時代的停用詞處理,跟在統計時代差在哪裡?
這是一個非常關鍵的觀念差異!
統計時代 (TF-IDF):我們必須主動過濾掉「的」、「了」、「the」等停用詞。因為這些詞出現頻率極高,如果不濾掉,模型會誤以為這些廢話才是關鍵字,產生嚴重的噪音
深度學習時代 (LLMs):我們通常「不再」主動移除停用詞。因為像 BERT 或 GPT 這種模型需要理解完整的上下文脈絡(Context)。例如 "Flight to Taipei" 與 "Flight from Taipei" 的意義截然不同,那個關鍵的介系詞(原本的停用詞)反而是機器理解方向的靈魂。

3.3 靜態向量三劍客 (Word2Vec, GloVe, FastText)

一張標題為「靜態向量圖解:喵星人視角」的專業資訊圖表。分為三部分:左側 Word2Vec 貓咪拼湊 King/Queen 拼圖(腦中想著分心男友迷因);中間 GloVe 貓咪戴會計帽撥算盤(腦中想著 Stonks 迷因),象徵全局統計;右側 FastText 貓咪戴護目鏡用鐵鎚拆解 Unbelievable 積木(腦中想著 This is Fine 迷因),象徵處理字根。
一張標題為「靜態向量圖解:喵星人視角」的專業資訊圖表。分為三部分:左側 Word2Vec 貓咪拼湊 King/Queen 拼圖(腦中想著分心男友迷因);中間 GloVe 貓咪戴會計帽撥算盤(腦中想著 Stonks 迷因),象徵全局統計;右側 FastText 貓咪戴護目鏡用鐵鎚拆解 Unbelievable 積木(腦中想著 This is Fine 迷因),象徵處理字根。
在 Transformer 統一江湖之前,NLP 的天下是由這三位開創者打下來的。它們的共通任務只有一個:幫每一個詞找到最完美的「語意座標」

① Word2Vec:靠鄰居猜字的「算命師」

由 Google 在 2013 年推出,它是現代詞嵌入的鼻祖。
  • 核心邏輯:它相信「物以類聚」。透過預測一個詞的鄰居(Skip-gram)或根據鄰居預測中心詞(CBOW),它學會了語意。
  • 技術細節:它讓「國王」 - 「男人」 + 「女人」 = 「女王」這種數學運算成為可能。

② GloVe:看透全局的「統計學家」

由史丹佛大學提出,它覺得 Word2Vec 太過局部。
  • 核心邏輯:它不只看鄰居,而是先掃描整個語料庫,建立一張巨大的「共現矩陣」。它觀察「」跟「」出現的比例,與「」跟「」出現的比例,進而推導出更穩定的語意。

③ FastText:連骨頭都看的「解剖學家」

Facebook 的得意之作,它解決了 Word2Vec 遇到陌生詞就失靈的痛點。
  • 核心邏輯:它不把單詞當成最小單位,而是拆解成子詞(n-grams)。例如看到「煎餃」,它會同時學習「」、「」的含義。
  • 優點:即使你打錯字成「天餃」,它也能透過「」這個字根,猜出這可能跟食物有關。對中文這種拼塊語言特別有效。
向量三劍客這麼厲害,為何還需要自注意力機制?
因為它們都是「靜態」的。不管句子怎麼變,「蘋果」的座標永遠在那裡。
  • 在「蘋果真好吃」裡,它是水果。
  • 在「蘋果手機真貴」裡,它是電子產品。
對於靜態向量來說,這兩個「蘋果」的數位身份完全相同,這就是語意歧義的終極天花板。

3.4 終極進化:Self-Attention (Q, K, V)

2017 年,Google 的論文《Attention Is All You Need》拋出了一個炸彈:不需要 RNN,不需要 CNN,光靠注意力機制就能處理語言。Transformer 架構從此改寫了 NLP 的歷史。
這是 NLP 史上第一次打破「靜態座標」的限制,讓單詞具備了「根據身邊的人,即時調整自己身份」的能力。在 Transformer 中,每個詞都像裝了雷達,主動去偵測周圍。
自我注意力機制:晚餐選擇大挑戰」的幽默圖表,用來解釋 NLP 中的 Q、K、V。左側一隻貓咪抱頭思考,思維氣泡顯示「想要熱的」、「不要太油」等需求作為 Query (Q);中間展示三家店:拉麵店、沙拉店、便利商店作為 Key (K) 的特徵比對(配上 Doge、哭泣貓、青蛙 Pepe 迷因);右側則是貓咪開心地端著飯碗「真香!」,象徵最後得到的 Value (V) 實際能量與體驗。
自我注意力機制:晚餐選擇大挑戰」的幽默圖表,用來解釋 NLP 中的 Q、K、V。左側一隻貓咪抱頭思考,思維氣泡顯示「想要熱的」、「不要太油」等需求作為 Query (Q);中間展示三家店:拉麵店、沙拉店、便利商店作為 Key (K) 的特徵比對(配上 Doge、哭泣貓、青蛙 Pepe 迷因);右側則是貓咪開心地端著飯碗「真香!」,象徵最後得到的 Value (V) 實際能量與體驗。

🍎 為什麼會變成「水果」而不是「手機」?

假設句子是:「這盒蘋果禮盒真貴。」電腦會透過以下三步驟來決定「蘋果」的語意:
  1. 發出訊號 Query (Q) :「蘋果」跳出來發問:「我現在身邊有誰?誰能告訴我我是哪種蘋果?」
  1. 查看標籤 Key (K) :句子裡的其他詞會露出自己的「名片」:
      • 「禮盒」的名片寫著:【食品、送禮、包裝盒】
      • 「真貴」的名片寫著:【價格、高級、金錢】
  1. 計算分數 (Q x K):「蘋果」拿著自己的需求去比對。它發現「禮盒」名片上的【食品】跟自己(潛在的水果身份)關聯度超級高!比「真貴」更具備決定性。
  1. 吸收營養 Value (V) :因為「禮盒」的分數最高,電腦會讓「蘋果」去吸收「禮盒」所代表的實質意義 (V)。這時候,「蘋果」的數位座標就會被拉向「食物/水果」那一區。
反之亦然:如果句子換成「蘋果手機」,它掃描到的是「手機」的名片(科技、通訊),座標就會轉向「科技公司」區。這就是動態語意理解

🚀 進階:不只看一眼,而是全方位掃描 (Multi-Head Attention)

想像你參加一場聯誼,如果你只有單頭注意力,你整晚只能用一種標準來觀察別人。
  • 單頭:你只看「對方的職業」。雖然你能找到職業最契合的人,但你可能會忽略他的性格、興趣或價值觀。
多頭(Multi-Head) 就像是你分身出了好幾個自己,同時從不同角度觀察:
  1. 一號:專門看「對方的共同興趣」(比如都喜歡看電影)。
  1. 二號:專門看「對方的幽默感」。
  1. 三號:專門看「對方的未來規劃」。
最後,這幾個頭會把觀察到的資訊「拼湊」起來,讓你對眼前的這個人(Token)有最完整的理解。
這種「看場合」的能力,實現了真正的動態語意理解!
自注意力機制會分心嗎?
會的,自注意力機制確實會「分心」。當模型對所有字的注意力都差不多,我們稱這種現象為 「注意力崩潰」(Attention Collapse),就像一個學生看書每一行都畫重點,等於沒畫。
正確解法稀疏化約束 (Sparsity Constraint)。強迫模型只能選少數幾個最重要的詞來對焦。

四、巨人誕生:BERT vs. GPT 的終極決戰

Transformer 架構的出現,將 NLP 世界切分成了兩條截然不同的進化路線。

4.1 BERT:全方位理解型選手 (The Master of Reading) 📖

BERT (Bidirectional Encoder Representations from Transformers) 代表了「理解」的巔峰。
  1. 核心特性:雙向 (Bidirectional) 訓練: BERT 同時看左邊與右邊,精準判斷語意。
  1. 底層武器:遮罩語言模型 (MLM): 隨機遮住 15% 的詞讓模型去「猜」,練就深厚的語意底蘊。
📌 考試重點MLM 的精髓在於「雙向上下文預測」。它是在學習「理解」。

4.2 GPT:流暢生成型選手 (The Master of Storytelling) ✍️

GPT (Generative Pre-trained Transformer) 是「生成」領域的教主。
  1. 核心特性:單向自回歸 (Autoregressive) 訓練: 預測下一個字時只看前文,練就了極強的「續寫能力」。
  1. 擅長任務:接著寫下去: 在對話、創意寫作與程式碼生成上,展現出了令人驚訝的靈性。

4.3 兩大巨人的巔峰對決表

特性
BERT (讀書高手)
GPT (作文高手)
訓練方向
雙向 (Bidirectional)
單向 (由左至右)
預訓練任務
MLM (遮罩預測)
自回歸 (預測下一字)
架構重點
Encoder Only
Decoder Only
拿手好戲
理解、分類、問答
生成、對話、翻

4.1 BERT:雙向掃描的「理解之王」

BERT 的訓練方式非常暴力:它把課本裡的字挖掉(Masked LM),強迫自己根據左右兩邊的內容把字猜回來。
  • 核心優勢:它對上下文的「雙向關係」極度敏感。如果你要讓 AI 幫你改考卷、分信件、或是做搜尋優化,BERT 至今依然是效率最高的王者。

4.2 GPT:自回歸生成的「預測大師」

GPT 則是另一種極端。它不看後文,只看前文,然後拚命猜下一個字是什麼。
  • 湧現能力 (Emergence):當模型規模大到一定程度,這種「猜下一個字」的簡單任務,竟然讓 GPT 學會了邏輯推理、寫程式、甚至是冷幽默。

五、

 

這篇有幫到你嗎?歡迎餵食煎餃 🥟

每篇文章都是踩坑後整理出來的,你的支持是最好的調味料。

請我喝杯咖啡
L111︱AI 人機協作、可解釋性與治理的真實問題超簡單 Agent Skills 入門:告別人肉 API,一鍵啟動你的工作流程
Loading...
目錄
0%
2025-2026閃電煎餃.

煎餃的調味實驗室 | 一個非本科文組生的 AI 自學筆記。用 n8n、Claude 與 Notion 打造自動化工作流,分享提早下班的數位食譜。

Powered byNotionNext 4.9.2.