type
status
date
slug
summary
tags
category
icon
password
人類的語言是極其低效率且充滿歧義的編碼。同一個詞「bank」,在金融情境中是銀行,在地理情境中是河岸。對人類來說,這依靠大腦中數十億年的進化直覺來分辨;但對電腦而言,它最初只是一連串的二進位代碼。自然語言處理(Natural Language Processing, NLP)的終極目標,就是將這些模糊的「人類訊號」轉換為電腦可運算、可推理、甚至可創作的「數位邏輯」。
一、NLP 的核心疆域:理解與生成的二重奏1.1 分類的意義:追求「對不對」還是「好不好」?1.2 技術底層:機器處理語言的三個任務層級1.3 開發者的最終目標:解決哪種商業問題?模組一:自然語言理解 (NLU)模組二:自然語言生成 (NLG)二、演進史:從規則編碼到預訓練時代2.1 第一世代:規則式方法 (1980s - 1990s)2.2 第二世代:統計語言模型 (1990s - 2010s)① N-gram 語言模型 (N-gram Language Model)② TF-IDF 詞頻-逆文件頻率 (Term Frequency-Inverse Document Frequency)2.3 第三世代:深度學習時代 (2010s - 2018)2.4 第四世代:預訓練時代 (2018 至今)三、拆解 Token、向量與注意力的連鎖反應3.1 現代大模型的秘密:BPE 子詞切分3.2 詞形正規化:Lemmatization vs. Stemming3.3 靜態向量三劍客 (Word2Vec, GloVe, FastText)① Word2Vec:靠鄰居猜字的「算命師」② GloVe:看透全局的「統計學家」③ FastText:連骨頭都看的「解剖學家」3.4 終極進化:Self-Attention (Q, K, V) 🍎 為什麼會變成「水果」而不是「手機」?🚀 進階:不只看一眼,而是全方位掃描 (Multi-Head Attention)四、巨人誕生:BERT vs. GPT 的終極決戰4.1 BERT:全方位理解型選手 (The Master of Reading) 📖4.2 GPT:流暢生成型選手 (The Master of Storytelling) ✍️4.3 兩大巨人的巔峰對決表4.1 BERT:雙向掃描的「理解之王」4.2 GPT:自回歸生成的「預測大師」五、
一、NLP 的核心疆域:理解與生成的二重奏
NLP 不就是把文字丟進模型裡跑嗎?為什麼還需要分 NLU 和 NLG?這對開發者來說有什麼實質意義?
NLP 就是讓電腦「讀懂」並「說話」的技術。NLU 負責理解(像大腦聽懂指令),NLG 負責生成(像嘴巴回話)。區分兩者能讓開發者按需求選工具,精準省時又不浪費資源!

1.1 分類的意義:追求「對不對」還是「好不好」?
為什麼我們要特地把 NLP 切分成 NLU(理解)與 NLG(生成)?這不只是學術上的分類,更是因為兩者的「成功定義」完全不同。當你作為開發者在評估模型時,這套標準能幫你決定資源該投在哪:
- NLU 追求的是「對不對」:
這是一個關於「精確率」與「召回率」的比賽。當使用者說「我要退貨」,模型必須 100% 精準地辨識出意圖,不能把退貨誤判為下單。在這裡,我們容不下模糊空間,目標是從成千上萬種說法中,找到唯一的正確答案。
- NLG 追求的是「好不好」:
這是一個關於「流暢度」與「相關性」的挑戰。AI 回覆使用者的文字,沒有絕對的標準答案。重點在於語氣是否自然?邏輯是否連貫?內容是否真的解決了問題?在這裡,我們追求的是一種人性化的溝通體驗。
1.2 技術底層:機器處理語言的三個任務層級

要達成上述目標,NLP 系統在技術上必須經歷三個遞進的處理層級,這也是所有 NLP 模型的共同基石:
- 理解 (Understand):這是 NLU 的主戰場。機器必須從混亂的非結構化文字中,解析出語法結構(Syntax)與語意邏輯(Semantics)。這涉及辨識語者的意圖、偵測情緒,並從背景知識中提取出隱含的邏輯。
- 處理 (Process):將人類語言轉換為電腦可操作的結構。這通常涉及「特徵提取」,例如將句子變成高維度向量,讓機器能在座標系中計算詞語間的距離。
- 生成 (Generate):NLG 的終極目標。根據處理後的語意座標,模型必須重新建構語句,產出自然、流暢且具備邏輯的文字。這不只是拼湊單字,還需要考慮上下文的一致性(Coherence)。
1.3 開發者的最終目標:解決哪種商業問題?
在實務應用中,我們會根據任務屬性來選擇技術路徑。下表整理了 NLP 的核心任務分佈:
模組一:自然語言理解 (NLU)
核心目標: 將非結構化文字轉化為電腦可處理的標籤、類別或數據。
任務名稱 | 技術細節 (底層邏輯) | 實務應用場景 |
意圖辨識 (Intent Recognition) | 把語句分類到預設標籤(如:詢問天氣、退貨) | 客服機器人分流、語音指令解析。 |
命名實體辨識 (NER) | 從文本中提取人名、地名、機構。 | 法律文件自動標記、醫囑資訊抓取。 |
情感分析 (Sentiment Analysis) | 判斷語氣是正向、負向還是中立。 | 社群輿情監控、電商評論自動彙整。 |
模組二:自然語言生成 (NLG)
核心目標: 根據已理解的資訊或數據,重新組織成人類可讀的流暢文字。
任務名稱 | 技術細節 (底層邏輯) | 實務應用場景 |
自動摘要 (Summarization) | 壓縮長篇大論,只保留核心重點。 | 新聞快報、會議記錄自動摘要。 |
對話生成 (Response Generation) | 根據上下文邏輯,產生流暢的回覆。 | ChatGPT 對答、虛擬助理互動。 |
機器翻譯 (Machine Translation) | 跨語言轉換:語意對齊並重新建構語句。 | 跨國文件翻譯、即時語音翻譯。 |
二、演進史:從規則編碼到預訓練時代
既然現在的 GPT 這麼強,我們還有必要學規則式方法(Rule-based)或是統計模型(N-gram)嗎? 那不都以前的東西了?學最新的不就好了?
即使 GPT 強大,學習基礎技術仍有三大核心意義:
- 技術底層邏輯:現代 Transformer 是從詞向量、統計模型演化而來。不學基礎,難以理解模型為何出錯或如何調優。
- 實務場景限制:在斷網、低運算設備或高隱私需求下,輕量的傳統方法是唯一解。
- 混合式架構:最強的系統通常是「規則+模型」。用規則過濾敏感資訊,再用 GPT 生成內容,兼具安全與靈活性。
這也是為什麼 iPAS AI 規劃師 鑑定仍將這些列為必考重點!

2.1 第一世代:規則式方法 (1980s - 1990s)
這是一個「語言學家治國」時代。人類手動編寫語法辭典與邏輯規則。系統不具備真正的智能,僅是按照「如果...就...(If-Then)」的邏輯運行。
- 代表技術:ELIZA、專家系統。
- 優勢:高可解釋性。系統若判斷錯了,你可以精準找到是哪條規則寫歪了。
- 痛點:維護成本極高。語言是活的,當新詞(如「很雷」)出現時,系統必須手動更新,否則就會徹底失效。
經典案例:ELIZA (1966 年) 這是史上第一個聊天機器人,它模擬的是一位「心理醫生」。它完全沒有智慧,只是利用關鍵字替換來反問使用者。
- 使用者:「我最近跟我媽吵架了。」
- ELIZA 規則:只要看到「我媽」,就回覆「再多跟我聊聊你的家人吧」。 結果:使用者會覺得「它聽得懂我在說什麼」,但其實它只是在玩文字接龍。
規則式方法 (Rule-based) 現在還有人用嗎?
有的!雖然 GPT 很強,但規則式方法在「準確度」與「成本」上有不可取代的地位。
- 身分證字號檢查 💳:這是最經典的應用。透過預設的數學邏輯(如:首字母代表地區、檢查碼運算)來驗證格式。這種「非黑即白」的任務,用規則式處理比 AI 亂猜更精準。
- LINE 官方帳號機器人 🤖:許多企業的自動回覆系統仍使用「關鍵字觸發」。當使用者輸入特定詞彙(如:門市資訊、運費),系統便立即丟出預設內容,反應速度極快且成本極低。
2.2 第二世代:統計語言模型 (1990s - 2010s)
在深度學習出現之前,機器讀語言靠的是統計規律,也就是數算詞出現的頻率。核心概念是:如果一個詞組合在過去經常出現,那它在未來出現的機率也比較高。
為什麼放棄規則,改學機率?
因為人類語言太難預測了!規則寫再多也寫不完例外。統計派不再強迫電腦「理解」語法,而是讓它當個「算命師」:根據過去發生的數據,預測下一個字最可能出現什麼。這就是從「教電腦釣魚」轉向「給電腦看一萬張魚的照片」的過程。
① N-gram 語言模型 (N-gram Language Model)
- 核心邏輯:靠前面幾個詞預測下一個詞的機率。N 是你往回看的「窗格大小」。
- 致命限制:長距離依賴問題 (Long-range Dependencies)。N-gram 只能看固定長度的窗格。句子太長時,它會「瞬間斷片」,忘記句子開頭說了什麼。
- 痛點:資料稀疏問題。當 N 增大時,許多詞組組合在語料庫中從未出現,機率會變為零。
Google 搜尋建議。當你輸入「台北」,系統會根據統計機率跳出「台北天氣」、「台北捷運」,因為這些組合在數據庫中出現次數最多。
② TF-IDF 詞頻-逆文件頻率 (Term Frequency-Inverse Document Frequency)

- 核心邏輯:它是「字詞計數器」。在單篇出現多(TF 高),但在所有文章中罕見(IDF 高),則該字最能代表主題。
- 沒辦法處理「一詞多義」:如果你搜尋「蘋果」,TF-IDF 分不出你是在找吃的「水果」,還是在找「手機」。它只會數次數,不會看上下文。
- 完全不懂「意思」 (語意鴻溝):在 TF-IDF 眼中,「貓咪」和「喵星人」是兩個截然不同的東西,分數完全不互通。如果你搜尋「貓咪」,它可能漏掉所有寫「喵星人」的超棒文章。
- 停用詞(Stopwords)過濾
- 想像你在聽一場演講,講者每講三句話就加一個「然後」、「那個」。這些詞對理解演講核心毫無貢獻,卻佔據了你的聽力帶寬。在 NLP 中,這就是「停用詞」。
- 核心功能:去除如「的」、「了」、「在」或英文的 "is", "the" 等高頻但語意貢獻低的詞。
- 減少運算量:過濾掉佔文本 30%-50% 的廢話,能讓模型訓練快上一倍。
傳統 SEO 玩法:在那個 Google 還沒像現在這麼聰明的時代(大約 2010 年代以前),TF-IDF 是搜尋引擎排名的核心技術之一。網站管理員會計算競爭對手的網頁中,哪些關鍵字的 TF-IDF 分數最高,然後在自己的網頁裡刻意增加這些「稀有且重要」的詞彙,好讓 Google 覺得這篇文章「最有重點」。
2.3 第三世代:深度學習時代 (2010s - 2018)
N-gram 跟 RNN、LSTM 都是健忘的金魚腦,那他們差在哪裡?
從統計時代(N-gram)跨越到深度學習時代(RNN/LSTM),最關鍵的差別在於電腦看待語言的方式從「數次數」變成了「向量化與狀態記憶」。
- 統計時代 (N-gram):像是一個只有幾秒記憶的收銀員。他只記得你剛剛說的最後 1-2 個字。如果你說了一長串需求,他只會根據最後一個字來猜你要什麼。
- 深度學習時代 (RNN/LSTM):像是一個帶著筆記本的速記員。他會把讀過的每個字轉化成「隱藏狀態(Hidden State)」,這就像是在筆記本上記錄摘要。雖然筆記本空間有限,寫太長會模糊(梯度消失),但他試圖保證整句話的語意是連貫的。

神經網路進入戰場,RNN 與 LSTM 成為霸主。在這個時期,電腦不再只是數算機率,而是試圖模仿人類大腦的「隱藏狀態(Hidden State)」,將語言視為有順序的時間序列,讓模型具備了初步的記憶力。
- RNN (循環神經網路):初步的記憶力
- 核心邏輯:它像是一個帶著筆記本的速記員,讀到每個字都會在筆記本上記錄摘要(隱藏狀態),試圖把前面的語意帶到後面的句子。
- 致命傷:梯度消失 (Gradient Vanishing)。它的筆記本空間有限,一旦句子超過 20 個字,後面的記錄就會蓋掉前面的,導致它「看到後面就忘了前面」。
- 應用:自動選字、語音辨識
- LSTM (長短期記憶網路):進化的記憶開關
- 白話差別:它是 RNN 的升級版。LSTM 在筆記本上加裝了「門控機制(Gates)」,像是有立可帶(忘記門)和螢光筆(輸入門)。它能智慧地判斷哪些廢話該忘記、哪些重點該長久記住,因此能處理比 RNN 更長的句子。
- 這樣可以把重要的資訊「鎖」在記憶裡,傳遞到 100 個字甚至更遠之後。又稱長距離依賴 (Long-term Dependencies)。
2.4 第四世代:預訓練時代 (2018 至今)
為什麼有了 LSTM,我們最後還是發明了更強大的 Transformer (ChatGPT 的祖先)?
自注意力機制(Self-Attention)解決了 LSTM 的順序依賴與資訊損耗問題。
- 並行處理:LSTM 像排隊領餐,必須一個接一個讀;自注意力則像一眼掃視全場,所有字同時運算,大幅提升效率。
- 瞬移對焦:無論兩個字離多遠,自注意力都能直接建立聯繫,不必像 LSTM 經過長距離傳遞導致記憶模糊。
Transformer 出現,終結了「排隊讀字」的時代。
- 突破點:並行運算與自注意力機制。模型不再需要逐字處理,而是一次掃描全局,這讓訓練大規模數據成為可能。
- 核心思維:不再只看「前一個字」,而是計算「全文字之間」的關聯性權重。
過往的技術讓我們解決了「記憶」問題,但 Transformer 帶領我們進入了「理解關係」的境界。究竟電腦是如何把一段文字拆解、轉換並產生這種神奇的「注意力」?我們將在第三章拆解它的底層黑盒子。
三、拆解 Token、向量與注意力的連鎖反應
如果說 NLP 是一座自動化工廠,那麼這一章就是這座工廠的「生產線核心」。當我們輸入一段文字,它並不是直接被丟進黑盒子,而是經歷了一連串精密的物理變換。
既然電腦已經有強大的 CPU 了,為什麼不能直接讀取文字檔?為什麼一定要把句子拆得稀巴爛?
因為電腦的本質是「大型計算機」。文字對它而言太模糊、太感性。我們必須先透過「剪裁(Tokenization)」把語言變成零件,再透過「座標(Embedding)」把零件變成數字,最後用「雷達(Attention)」讓數字之間產生連結。這三個步驟缺一不可,這就是機器理解語言的連鎖反應。
在深入探討之前,我們必須建立一個共識:
- Token 是零件:電腦不讀句子,它讀的是被剪碎後的符號。透過子詞(Subword)技術,我們解決了遇到新詞就當機的問題。
- 向量是座標:電腦不認得「貓」,它只認得座標
[0.6, 0.9, ...]。讓相似的詞在空間中「住在一起」,是機器理解的第一步。
關於切分 (Tokenization) 跟向量化 (Embedding) 的基礎說明,可參考站內相關文章段落
3.1 現代大模型的秘密:BPE 子詞切分

電腦不讀「句子」,它讀的是被剪碎後的零件,稱為 Token。但怎麼剪,是一門大學問!子詞切分(Subword segmentation)是目前最主流的解決方案。
BPE (Byte Pair Encoding) 是其中一種「積木化」的分詞技術。它會統計語料中出現頻率最高的字符組合,將常見的詞保留為完整積木,將罕見詞拆解成基礎組件(Subwords)。
- 全詞法 (Word-based):像是死背單字的學生。
- 拆解結果:
[抹茶煎餃](如果字典沒這詞,它就直接當機 😵)。
- 字元法 (Character-based):像是只認字母的幼兒。
- 拆解結果:
[抹]、[茶]、[煎]、[餃]。雖然不會當機,但每個字都太碎了,電腦很難一眼看出「抹茶」是一個完整的味道。
- 子詞法 (Subword-based / BPE):這就是現代大模型的秘密武器。
- 拆解結果:
[抹茶]+[煎]+[餃]。它保有了「抹茶」這個有意義的單位,同時又把「煎」跟「餃」拆開,只要認識這些「積木」,它就能拼湊出大致語意,大幅提升了模型的泛化能力。
3.2 詞形正規化:Lemmatization vs. Stemming
當機器看到 "running", "ran", "runs",它應該知道這都是同一個動作。
- 詞幹提取 (Stemming)
- 暴力剪裁。如將 "running" 剪成 "run"。速度快,但可能產出不存在的字(會把
flies剪成fli)。 - 如果使用者搜尋
fishing,詞幹提取會把它變成fish。這樣系統就能同時抓到包含 fish、fished、fisher的文章。這種「寧可錯殺,不可放過」的特性,有助於提高召回率 (Recall)。
- 詞形還原 (Lemmatization)
- 依賴字典與語法規則還原為原型(如
saw根據語境還原為see)。這對深度語意分析至關重要。
特性 | 詞幹提取 (Stemming) | 詞形還原 (Lemmatization) |
技術手段 | 規則剪裁(去字尾)✂️ | 字典查詢、語法分析 📖 |
準確度 | 較低(可能產生 fli 這種怪字) | 高(還原為真正的原型 fly) |
速度 | 極快 🏎️ | 較慢 🚶 |
典型應用 | 大規模搜尋引擎、快速過濾 | 聊天機器人、精準翻譯 |
停用詞去哪裡了?在深度學習時代的停用詞處理,跟在統計時代差在哪裡?
這是一個非常關鍵的觀念差異!
① 統計時代 (TF-IDF):我們必須主動過濾掉「的」、「了」、「the」等停用詞。因為這些詞出現頻率極高,如果不濾掉,模型會誤以為這些廢話才是關鍵字,產生嚴重的噪音
② 深度學習時代 (LLMs):我們通常「不再」主動移除停用詞。因為像 BERT 或 GPT 這種模型需要理解完整的上下文脈絡(Context)。例如 "Flight to Taipei" 與 "Flight from Taipei" 的意義截然不同,那個關鍵的介系詞(原本的停用詞)反而是機器理解方向的靈魂。
3.3 靜態向量三劍客 (Word2Vec, GloVe, FastText)

在 Transformer 統一江湖之前,NLP 的天下是由這三位開創者打下來的。它們的共通任務只有一個:幫每一個詞找到最完美的「語意座標」。
① Word2Vec:靠鄰居猜字的「算命師」
由 Google 在 2013 年推出,它是現代詞嵌入的鼻祖。
- 核心邏輯:它相信「物以類聚」。透過預測一個詞的鄰居(Skip-gram)或根據鄰居預測中心詞(CBOW),它學會了語意。
- 技術細節:它讓「國王」 - 「男人」 + 「女人」 = 「女王」這種數學運算成為可能。
② GloVe:看透全局的「統計學家」
由史丹佛大學提出,它覺得 Word2Vec 太過局部。
- 核心邏輯:它不只看鄰居,而是先掃描整個語料庫,建立一張巨大的「共現矩陣」。它觀察「冰」跟「冷」出現的比例,與「冰」跟「熱」出現的比例,進而推導出更穩定的語意。
③ FastText:連骨頭都看的「解剖學家」
Facebook 的得意之作,它解決了 Word2Vec 遇到陌生詞就失靈的痛點。
- 核心邏輯:它不把單詞當成最小單位,而是拆解成子詞(n-grams)。例如看到「煎餃」,它會同時學習「煎」、「餃」的含義。
- 優點:即使你打錯字成「天餃」,它也能透過「餃」這個字根,猜出這可能跟食物有關。對中文這種拼塊語言特別有效。
向量三劍客這麼厲害,為何還需要自注意力機制?
因為它們都是「靜態」的。不管句子怎麼變,「蘋果」的座標永遠在那裡。
- 在「蘋果真好吃」裡,它是水果。
- 在「蘋果手機真貴」裡,它是電子產品。
對於靜態向量來說,這兩個「蘋果」的數位身份完全相同,這就是語意歧義的終極天花板。
3.4 終極進化:Self-Attention (Q, K, V)
2017 年,Google 的論文《Attention Is All You Need》拋出了一個炸彈:不需要 RNN,不需要 CNN,光靠注意力機制就能處理語言。Transformer 架構從此改寫了 NLP 的歷史。
這是 NLP 史上第一次打破「靜態座標」的限制,讓單詞具備了「根據身邊的人,即時調整自己身份」的能力。在 Transformer 中,每個詞都像裝了雷達,主動去偵測周圍。

🍎 為什麼會變成「水果」而不是「手機」?
假設句子是:「這盒蘋果禮盒真貴。」電腦會透過以下三步驟來決定「蘋果」的語意:
- 發出訊號 Query (Q) :「蘋果」跳出來發問:「我現在身邊有誰?誰能告訴我我是哪種蘋果?」
- 查看標籤 Key (K) :句子裡的其他詞會露出自己的「名片」:
- 「禮盒」的名片寫著:【食品、送禮、包裝盒】
- 「真貴」的名片寫著:【價格、高級、金錢】
- 計算分數 (Q x K):「蘋果」拿著自己的需求去比對。它發現「禮盒」名片上的【食品】跟自己(潛在的水果身份)關聯度超級高!比「真貴」更具備決定性。
- 吸收營養 Value (V) :因為「禮盒」的分數最高,電腦會讓「蘋果」去吸收「禮盒」所代表的實質意義 (V)。這時候,「蘋果」的數位座標就會被拉向「食物/水果」那一區。
反之亦然:如果句子換成「蘋果手機」,它掃描到的是「手機」的名片(科技、通訊),座標就會轉向「科技公司」區。這就是動態語意理解!
🚀 進階:不只看一眼,而是全方位掃描 (Multi-Head Attention)
想像你參加一場聯誼,如果你只有單頭注意力,你整晚只能用一種標準來觀察別人。
- 單頭:你只看「對方的職業」。雖然你能找到職業最契合的人,但你可能會忽略他的性格、興趣或價值觀。
多頭(Multi-Head) 就像是你分身出了好幾個自己,同時從不同角度觀察:
- 一號:專門看「對方的共同興趣」(比如都喜歡看電影)。
- 二號:專門看「對方的幽默感」。
- 三號:專門看「對方的未來規劃」。
最後,這幾個頭會把觀察到的資訊「拼湊」起來,讓你對眼前的這個人(Token)有最完整的理解。
這種「看場合」的能力,實現了真正的動態語意理解!
自注意力機制會分心嗎?
會的,自注意力機制確實會「分心」。當模型對所有字的注意力都差不多,我們稱這種現象為 「注意力崩潰」(Attention Collapse),就像一個學生看書每一行都畫重點,等於沒畫。
正確解法:稀疏化約束 (Sparsity Constraint)。強迫模型只能選少數幾個最重要的詞來對焦。
四、巨人誕生:BERT vs. GPT 的終極決戰
Transformer 架構的出現,將 NLP 世界切分成了兩條截然不同的進化路線。
4.1 BERT:全方位理解型選手 (The Master of Reading) 📖
BERT (Bidirectional Encoder Representations from Transformers) 代表了「理解」的巔峰。
- 核心特性:雙向 (Bidirectional) 訓練: BERT 同時看左邊與右邊,精準判斷語意。
- 底層武器:遮罩語言模型 (MLM): 隨機遮住 15% 的詞讓模型去「猜」,練就深厚的語意底蘊。
📌 考試重點:MLM 的精髓在於「雙向上下文預測」。它是在學習「理解」。
4.2 GPT:流暢生成型選手 (The Master of Storytelling) ✍️
GPT (Generative Pre-trained Transformer) 是「生成」領域的教主。
- 核心特性:單向自回歸 (Autoregressive) 訓練: 預測下一個字時只看前文,練就了極強的「續寫能力」。
- 擅長任務:接著寫下去: 在對話、創意寫作與程式碼生成上,展現出了令人驚訝的靈性。
4.3 兩大巨人的巔峰對決表
特性 | BERT (讀書高手) | GPT (作文高手) |
訓練方向 | 雙向 (Bidirectional) | 單向 (由左至右) |
預訓練任務 | MLM (遮罩預測) | 自回歸 (預測下一字) |
架構重點 | Encoder Only | Decoder Only |
拿手好戲 | 理解、分類、問答 | 生成、對話、翻 |
4.1 BERT:雙向掃描的「理解之王」
BERT 的訓練方式非常暴力:它把課本裡的字挖掉(Masked LM),強迫自己根據左右兩邊的內容把字猜回來。
- 核心優勢:它對上下文的「雙向關係」極度敏感。如果你要讓 AI 幫你改考卷、分信件、或是做搜尋優化,BERT 至今依然是效率最高的王者。
4.2 GPT:自回歸生成的「預測大師」
GPT 則是另一種極端。它不看後文,只看前文,然後拚命猜下一個字是什麼。
- 湧現能力 (Emergence):當模型規模大到一定程度,這種「猜下一個字」的簡單任務,竟然讓 GPT 學會了邏輯推理、寫程式、甚至是冷幽默。
五、
這篇有幫到你嗎?歡迎餵食煎餃 🥟
每篇文章都是踩坑後整理出來的,你的支持是最好的調味料。
相關文章
.png?table=collection&id=2ba70f01-9634-81f4-8376-000b1aff7bf1&t=2ba70f01-9634-81f4-8376-000b1aff7bf1)











