AI 技術白話文/2026.01.07 發佈/2026.06.14 更新

AI Agent 是什麼?為什麼它被稱為下一場工作革命

字數 4526閱讀時間 12 分鐘
AI Agent 是什麼?為什麼它被稱為下一場工作革命

🎯
AI Agent 透過 ReAct 框架、工具調用(Function Calling)與記憶管理,從被動回答升級為主動閉環執行;MCP 協定讓 AI 能即插即用串接各類工具;未來的競爭力在於能設計出可執行、可容錯的工作流程(Workflow Engineering)。
這篇文章源自 iPAS AI 規劃師初級考試「科目二(L122)」但內容大多是取自於2025年第四場初級考試的題目。AI的發展日新月異,考題也會隨著時事更新,僅供參考。

前言

如果你曾覺得:「為什麼我跟 AI 溝通還是這麼累?我得一步步教它怎麼做,最後還要自己 Debug(除錯)」,那麼你並不孤單。這種疲憊感源於一個矛盾:我們在使用一個擁有智慧的「大腦」,卻得親自充當它的「手腳」。
現在,這個格局正在被打破。我們正在從「Chatbot(聊天機器人)」時代,正式邁入「AI Agent(人工智慧代理)」的時代。這是一場關於工作方式的「典範轉移」。
這篇文章從 iPAS AI 規劃師考題出發,帶你走一遍 AI Agent 的完整知識框架:從 ReAct 架構到 MCP 協定,從提示詞工程到 Workflow Engineering 的轉型。如果你用過 ChatGPT 卻覺得「怎麼還是很累」,這篇會告訴你為什麼,以及下一步該學什麼。

一、從 Chatbot 到 Agent 的典範轉移

為什麼大家突然不再談論「對話」,開始談論「代理」?差異很直覺:你是雇傭了一個「顧問」,還是雇傭了一個「員工」?

1. 工具時代:AI 是「被動回答者」

我天天都在用 ChatGPT 幫我寫草稿、查資料,這不就是已經在使用 AI 工具了嗎?它到底還缺少了什麼?
你現在只是在和 AI 聊天,它還缺少了主動執行力(Agency)與本地數據主權。你點一下,它動一下,這叫「單兵工具」。真正的 AI 轉型是讓它變成「數位分身」。它缺的是手和腳,以及真正懂你工作脈絡的本地知識庫。
使用傳統 Chatbot 規劃旅遊的流程圖,顯示人類需手動整合各項搜尋結果
使用傳統 Chatbot 規劃旅遊的流程圖,顯示人類需手動整合各項搜尋結果
在過去兩年中,我們與 ChatGPT、Claude 或 Gemini 的互動模式,是一種「單次指令交換」。這就像是在諮詢一位知識淵博的顧問:你問,它答。
這種模式的限制很明確:AI 只負責「生成內容」,不管「達成結果」。
在這個過程中,AI 雖然聰明,但它卻是「被動」的。你必須扮演「專案經理」與「執行小秘書」。你才是動手做事的人,AI 只是幫你整理攻略的「智慧型電子書」。

2. Agent 時代:AI 是「主動執行者」

所以 Agent(代理)到底跟一般的聊天機器人有什麼不同?它真的能像真實的員工一樣,自己把事情做完嗎?
差別在於 Agent 擁有自主拆解任務、使用工具與自我修正的能力。你只要給它一個模糊的終點(目標),它會自己規劃路徑、查資料、調用 API,遇到錯誤自己換個方法試,直到把結果帶回來給你。
使用 AI Agent 規劃旅遊的流程圖,展示自動理解需求與同步處理任務的能力
使用 AI Agent 規劃旅遊的流程圖,展示自動理解需求與同步處理任務的能力
所謂的 Agent,是指一個能夠「自主規劃、執行並自我修正」的 AI 系統。它承諾的是完成你的任務,從頭到尾。
差異在於:Agent 能夠「閉環執行」——它不需要人類介入每個步驟,而是自己完成「規劃 → 執行 → 檢查 → 修正」的循環,直到任務完成或遇到無法解決的問題。

3. 為什麼現在才出現 Agent?

既然 Agent 這麼好用,為什麼我們現在才開始討論它?以前的 AI 技術做不到這些自動化操作嗎?
以前的自動化系統像工廠生產線,只要輸送帶歪了一公分,機器手就會揮空;現在的 Agent 就像雇了一個有眼睛、會思考的實習生,他看到東西歪了,會自己伸手把它扶正再繼續做。
AI Agent 三大技術支柱:ReAct 推理框架、工具使用 Tool Use 與長上下文視窗
AI Agent 三大技術支柱:ReAct 推理框架、工具使用 Tool Use 與長上下文視窗
智慧代理」的概念在學界存在已久,但為何直到 2024 年才真正爆發?因為三個技術條件終於成熟:

① 推理與行動能力的耦合:ReAct 框架

早期的模型雖然會寫字,但不會「思考步驟」。GPT-4、Claude 3.5 Sonnet 這一代模型具備了 ReAct(Reasoning + Acting)能力。這讓 AI 能在長達數十步的任務鏈中,保持邏輯的連貫性:
  • 理解複雜指令:分辨「寫程式」、「測試程式」、「修正程式」是三個不同的步驟
  • 動態調整策略:根據執行結果決定下一步行動(例如:測試失敗 → 分析錯誤 → 修改程式碼)
  • 處理多步驟任務:在長達 10-20 步的任務鏈中保持邏輯一致性

② 讓 AI 長出手腳:工具調用 (Tool Use)

現在的模型具備了 Function Calling(函數調用) 的能力。這意味著 AI 終於拿到了外界的「授權」,它可以:
  • 操作檔案:讀取或修改你的行程 Excel 表。
  • 執行環境:直接在電腦環境執行腳本處理資料。
  • 網路存取:主動去訂房網站刷即時資訊,而不是憑過時的訓練資料瞎猜。

③ 巨大的記憶空間:長上下文視窗 (Context Window)

Agent 在執行任務時,需要記住大量的脈絡:你的預算、不喜歡的飯店類型、之前的搜尋結果。
  • 以前的 AI:只有幾千字的記憶,任務跑一半就「失憶」了。
  • 現在的 AI:具備高達 20 萬 token 的 Context Window。這讓它能一次性記住你整個旅程的所有偏好,從全域的角度來思考問題。
這三大條件的成熟,讓 AI 從一個「只能隔空喊話的軍師」,變成了一個「能直接下場作戰的先鋒」。

二、Agent 的核心技術架構

知道了 Agent 的強大,你可能會好奇:它是怎麼做到的?它真的在「思考」嗎?
Agent 並不是具備了人類的神經元,而是擁有一套精密設計的「數位大腦架構」。我們可以將其拆解為三個部分:推理循環工具調用記憶管理

1. ReAct:當 AI 學會「先思後行」

AI 說到底不就是預測下一個字出現機率的機率模型嗎?它如何『決定』下一步要做什麼?
它決定下一步的秘密在於「思維鏈(Chain of Thought)」與「格式框架」。當你給它一個任務,它不是隨機猜字,而是像人類大腦在自言自語。它會先預測出「計畫、步驟、工具名稱」等關鍵字,並透過不斷讀取自己剛寫下的前一個字,維持思考的連貫性,直到把整條行動路線「算」出來。
AI Agent 的 ReAct 推理循環流程圖,包含推理 Reasoning、行動 Acting 與觀察 Observation 三步驟
AI Agent 的 ReAct 推理循環流程圖,包含推理 Reasoning、行動 Acting 與觀察 Observation 三步驟
這就是 ReAct (Reasoning + Acting) 的魔力。它不是一個線性的流程,而是一個「觀察、思考、動手」的迭代循環:
  1. Reasoning(推理):分析現狀。例如:「飯店客滿了,我需要找第二順位的旅館。」
  1. Acting(行動):執行操作。例如:「在 Booking.com 搜尋附近飯店。」
  1. Observation(觀察):檢查結果。例如:「發現 B 飯店有房,但評價只有 3.5 星。」
這就像你在寫報告時,發現資料不足(觀察),決定去圖書館(推理),然後動身出發(行動)。Agent 的智慧,來自於它能根據「上一步的失敗」來修正「下一步的行為」。
AI 背後的「推理框架」分成兩個層次:「直覺理解」和「深度推理」。

① 基礎理解:決定理解任務的速度

零樣本提示 Zero-shot 與少樣本提示 Few-shot 的效果對比圖
零樣本提示 Zero-shot 與少樣本提示 Few-shot 的效果對比圖
  • Zero-shot (零樣本提示):不給範例,直接要求 AI 憑直覺推理。適合「幫我檢查飯店評價有沒有負評」這類簡單任務。
  • Few-shot (少樣本提示):給 AI 1-3 個範例。例如:「以前我選飯店的標準是 A、B、C,請以此幫我選這次的京都飯店」。這能大幅提升 Agent 執行你個人化偏好的精準度。

② 深度推理:決定解決複雜問題的能力

思維鏈 CoT、思維樹 ToT 與思維骨架 SoT 三種深度推理框架的演進比較
思維鏈 CoT、思維樹 ToT 與思維骨架 SoT 三種深度推理框架的演進比較
當任務變得很複雜時,Agent 會開啟「慢思考」模式:
框架名稱
核心概念
適用場景
思維鏈 (CoT)
像解數學題般,要求 AI 「逐步思考」
複雜邏輯推理、除錯
思維樹 (ToT)
同時考慮多條路徑,選出最佳解
策略規劃、方案優化
思維骨架 (SoT)
先擬定大綱骨架,再填充細節
寫作長文、系統架構
這兩種層次的結合,支撐了 ReAct 的運作:Zero/Few-shot 決定 Agent 能否「理解任務」,而 CoT/ToT/SoT 則決定了它在遇到飯店客滿等突發狀況時,能否「穩定推理」並找到備案。

2. Tool Use:給 AI 大腦插上手腳

AI 真的能直接去訂房或是修改我的檔案嗎?它明明只是螢幕裡的一段文字啊!
AI 能做到這些,是因為它有了數位手腳(API 串接)。它不只是文字,而是能把你的話轉化成機器看得懂的「執行指令」。
傳統 AI 僅回答舊知識與具備函數調用 Tool Use 的 Agent 能力對比
傳統 AI 僅回答舊知識與具備函數調用 Tool Use 的 Agent 能力對比
這就是 Function Calling(函數調用) 的神奇之處。AI 本身確實不會「刷卡」或「點滑鼠」,但它可以輸出特定的「格式代碼」,告訴系統去執行特定的工具。
以「查詢天氣」為例:
  • 傳統 AI:會告訴你「我無法得知即時資訊」。
  • 具備 Tool Use 的 Agent:它會識別出你的意圖,並呼叫一個叫做 get_weather(city="Taichung") 的小工具。
執行是由背後的程式碼完成的,但 AI 知道「何時該用什麼工具」。

3. Memory:AI 的「工作記憶」與「長期檔案庫」

為什麼我跟 AI 聊到一半,它突然就忘記我五分鐘前說過的話了?
因為 AI 的大腦有「記憶體容量限制」。
AI 工作記憶上下文視窗 Context Window 與長期記憶向量資料庫 RAG 的視覺對比
AI 工作記憶上下文視窗 Context Window 與長期記憶向量資料庫 RAG 的視覺對比
這涉及到 AI 的「記憶管理」。Agent 的記憶分為兩個層級:

① 短期記憶:上下文視窗 (Context Window)

這相當於 AI 的「工作桌面」。當前對話歷史、正在看的檔案都放在這。
目前的頂尖模型擁有巨大的工作空間,能讓 AI 一次「看到」整個專案的內容。然而,一旦專案太大,超過了 Token(文字單位)限制,AI 就會發生「失憶」。

② 長期記憶:外部儲存與向量資料庫

為了突破桌面空間的限制,Agent 會建立「圖書館」。 它會使用 RAG(檢索增強生成) 技術,將過往的決策、你的偏好、或是數萬份文獻存入向量資料庫。當它需要時,才去圖書館裡把那一頁「查出來」。
記憶能力是 Agent 從「隨機聊天機器人」進化為「深度協作者」的關鍵。它能「記住」你的工作習慣與過往決策,不用每次從零開始。

三、MCP:AI 的「USB 介面」

如果說推理架構是 Agent 的大腦,那為什麼我們到現在才感覺到它變好用了?因為大腦還需要與外界連接。
在 2024 年底,Anthropic 推出了一個革命性的協定:MCP (Model Context Protocol)。它被譽為 AI 界的「USB 介面」。

1. 為什麼需要一個「新協定」?

軟體之間本來不就有 API(應用程式介面)可以對接了嗎?為什麼還需要特別幫 AI 制定一個 MCP 協定?
因為傳統 API 是一對一的「專用電話線」,而 MCP 是全天下 AI 通用的「同聲傳譯網路」。Anthropic 制定 MCP(Model Context Protocol)開放協定後,就像統一了插座規格,軟體只要接上 MCP 插頭,任何 AI 大腦就能瞬間無縫讀取與操控該軟體,再也不需要重新適應。
傳統 API 多格式混亂與 MCP 萬用標準協議的統一接口對比
傳統 API 多格式混亂與 MCP 萬用標準協議的統一接口對比
想像一下,如果你想讓 AI 同時存取你的 Google Drive、Slack 和 GitHub。
  • 以前(沒有 MCP):每個軟體(如 Cursor、Claude)都要針對這三個服務,分別撰寫複雜的對接程式碼。開發者要處理三套不同的驗證方式與數據格式,這導致串接非常昂貴且緩慢。
  • 現在(有了 MCP):服務商只需提供一個「MCP Server」。任何支援 MCP 的 AI(就像電腦的 USB 槽)都能直接「插上」並使用這些功能。
這就是「標準化」的力量。MCP 讓 AI 不需要針對每個軟體「量身打造」連接線,直接「即插即用」。

2. MCP 的三層架構:它是如何溝通的?

當我點擊連接時,背後發生了什麼事?AI 是如何讀取我的私密資料的?
當你點擊連接時,MCP 協定會在你的本地電腦架起一座安全的私有橋樑,AI 並不是直接跑到你的電腦裡亂搜。
MCP 三層架構圖:客戶端 Client、協議層 Protocol 與服務端 Server 的溝通流程
MCP 三層架構圖:客戶端 Client、協議層 Protocol 與服務端 Server 的溝通流程
MCP 採用了一套簡單卻強大的三層架構來確保安全與效能:
  1. MCP Server(工具提供方):將外部服務(如 Notion)包裝成 AI 能理解的介面。
  1. MCP Client(AI 使用方):負責呼叫 Server,拿到資料或要求執行操作。
  1. MCP Protocol(溝通協定):定義了「怎麼問」與「怎麼答」的標準格式,確保雙方不會雞同鴨講。

3. 為什麼 MCP 是 Agent 爆發的關鍵?

這對普通使用者來說有什麼好處?我的工作效率會因此提升嗎?
以前想讓 AI 幫你整理 Obsidian 筆記或 Gmail,你得把資料雙手奉送到雲端,或花錢請工程師寫複雜的 API。現在有了 MCP,就像買了個隨插即用的萬用轉接頭,你可以直接把本地的私密資料庫一鍵接上 AI,不用擔心隱私外洩。
MCP 如何降低開發門檻、擴展生態系並讓 Agent 從空想到即刻執行
MCP 如何降低開發門檻、擴展生態系並讓 Agent 從空想到即刻執行
MCP 的出現,直接解決了 Agent 從「理論」走向「實用」的最後一公里路:
  • 降低開發門檻:以前串接一個新服務可能需要幾天甚至幾週;現在,只要勾選「啟用」就能完成。這意味著未來你會看到成千上萬的小工具都能輕易被 AI 呼叫。
  • 生態系的擴張:無論是你的 GitHub 代碼、Slack 訊息,還是 SQL 資料庫,都能瞬間變成 Agent 的「資料庫」與「武器庫」。
  • 從「空想」到「行動」:沒有 MCP,Agent 只能在對話框裡給你建議;有了 MCP,Agent 才能「動手」去修改你的檔案、發送你的郵件。
MCP 是 Agent 時代的「基礎設施」,讓 AI 擁有了與數位世界「無縫接軌」的能力。

4. 從單兵作戰到群體協作:A2A (Agent-to-Agent) 架構

如果我的 Agent 想做的事情超出了它的能力範圍,或者需要與另一個系統深度對接怎麼辦?
當一個 Agent 遇到不會的事,它會把任務包裝成特定請求,主動聯絡另一個身懷絕技的專業 Agent,透過專用通訊協定直接進行「大腦對接」,協同完成任務後再把結果回傳給你。
單一 Agent 孤立作戰與 A2A Agent-to-Agent 多代理協作架構對比
單一 Agent 孤立作戰與 A2A Agent-to-Agent 多代理協作架構對比
  1. 從「呼叫工具」變成「請教專家」
    1. 以前 AI 是自己去翻地圖、刷網站(呼叫工具);A2A 是你的 AI 直接去跟飯店的 AI 談判。你的 Agent 不需要懂怎麼訂房,它只需要知道「飯店 Agent」懂,然後把任務委派出去。
  1. 標準化的「商業溝通語言」
    1. Agent 之間要協作,必須講同一種語言。這就是 MCP 協定 的終極目標——定義一套標準,讓不同的 Agent 能互相交換需求、確認價格、完成交易,而不需要人類在中間傳話。
  1. 數位世界的「外包鏈」
    1. 未來你只需要對接一個「總管 Agent」,它會自動去發包給無數個專業 Agent(報帳、訂票、寫扣)。這讓複雜任務的處理能力呈指數成長,因為 AI 之間溝通的速度遠比人機溝通快得多。
MCP 協定最終導向的方向:A2A (Agent-to-Agent) 協作架構。

四、從 Prompt Engineering 到 Workflow Engineering

隨著 MCP 解決了「連接」問題,我們與 AI 的協作也進入了下半場:我們不再只是「問問題的人」,而是「設計流程的人」。

1. 典範轉移:別再執著於「完美提示詞」

我學了這麼多提示詞技巧,現在跟我說寫提示詞已經不夠了?那我要學什麼?
你要學的是當一個「系統架構師」,思考如何把你的工作切分成標準步驟,並把 AI 丟進 n8n 或本地的 MCP 系統裡,讓它自動去抓資料、判斷邏輯並產出結果。
Prompt Engineering 向貓許願與 Workflow Engineering 自動化流水線的穩定度對比
Prompt Engineering 向貓許願與 Workflow Engineering 自動化流水線的穩定度對比
我們正在經歷一場從「Prompt Engineering(提示詞工程)」到「Workflow Engineering(工作流程工程)」的典範轉移:
  • 工具時代 (Prompt):你關注「怎麼問」。角色設定、語氣明確、格式規範。
  • Agent 時代 (Workflow):你關注「怎麼設計流程」。任務拆解、執行驗證、以及「出錯後該怎麼辦」。
這就像是從「寫便條紙給助理」進化到了「設計工廠自動化生產線」。

2. Claude Skills:讓 AI 像「下載軟體」一樣獲得能力

有些任務需要很專業的規則,我難道每次都要把幾千字的規則貼給 AI 嗎?
不用,那太反人性了。你需要把幾千字的專業規則打包成 AI 的「技能(Skills)」或「系統知識庫」。
這就是「能力模組化」的概念。以 Anthropic 推出的 Claude Skills 為例,它能將專業知識與最佳實踐封裝成一個行為模組。
例如,載入一個 docx Skill 後,AI 就像瞬間下載了「專業文件撰寫外掛」,自動獲得格式處理與結構優化的能力。這種模組化的設計(延伸閱讀:Agent Skills 是什麼?),讓 Agent 能夠根據任務「一鍵切換工具箱」。
這聽起來跟 OpenAI 的 GPTs 或 Google 的 Gems 很像?它們之間的差別在哪?
GPTs 是「你去換一個專家聊天」;Skills 是「讓同一個 Agent 變得更強」。在 Workflow Engineering 的思維下,模組化的 Skills 讓 Agent 在複雜任務中動態切換能力。
GPTs 獨立診間式機器人與 Claude Skills 隨插即用模組化技能的整合能力對比
GPTs 獨立診間式機器人與 Claude Skills 隨插即用模組化技能的整合能力對比

3. 實戰對比:尋找自動化的最佳平衡點

市面上這麼多自動化工具,有些很便宜,有些用 AI 卻很貴,我該怎麼選?
這取決於你的任務本質是「搬運工」還是「思考者」。
  • 傳統自動化(便宜/免 AI): 依據死板規則辦事。適合「A 點搬到 B 點」的例行公事。
  • AI 自動化(貴): 具備推理與適應力。適合需要「看懂、分類、改寫、決策」的彈性任務。
方案類型
核心能力 (流程/語意)
自動化程度與成本
NC/LC自動化工作流
固定流程、無語意理解
✅ 全自動 / 💰 最低
NC/LC + AI
⚠️ 半固定、具備語意判斷
✅ 全自動 / 💰 中低
Claude Skills
彈性流程、語意理解極強
❌ 手動觸發 / 💰 中等
Agent Workflow
自主修正、全動態流程
✅ 全自動 / 💰 最高

💡 決策指南:

  1. 流程固定、不需要理解語意(如:每週備份資料):請用傳統NC/LC工具。例如:定時備份資料。
  1. 流程固定但需要「讀得懂人話」(如:自動記帳、社群媒體評論監測):NC/LC + AI 節點 是 CP 值最高的選擇。
  1. 需要專業領域知識且需「人機協作」(如:撰寫符合嚴格法規的文件):載入 Claude Skills(或其模組化技能)是最有效率的方式。這讓 AI 瞬間獲得「專業武功」,且人類仍保有高度的審核與引導權。
  1. 流程不固定、需要應對各種突發報錯(如:解決複雜代碼 Bug):唯有具備自主推理能力的 Agent Workflow(如 Cursor 或 Windsurf)才能真正勝任。
雖然 Agent 的成本最高,但它帶來的「錯誤自我修正」與「環境適應力」,是傳統自動化工具無法比擬的價值。

結語:從「指令使用者」進化為「流程建築師」

從 Chatbot 到 Agent 的轉型,是「控制權」與「信任度」的重新分配。
你得面對一個事實:你以為你懂的東西,未必說得清楚。
過去我們習慣把 AI 當作問答機器:丟問題,等答案,不滿意就換個問法。但 Agent 要求的是另一種能力:你得把腦子裡那些「憑感覺」、「看情況」、「差不多就這樣」的判斷,拆解成可以被執行的步驟。
挑戰在這裡:你能不能把自己做事的邏輯,那些你從來不需要說出口的隱性知識,轉譯成一套顯性的流程?
未來的競爭力,在於你是否具備「Workflow Engineering(工作流程工程)」的思維。你在學的是怎麼把腦子裡的知識變成規則。
AI Agent 不會取代你的判斷,但它會逼你回答一個問題:你真的像你以為的那麼懂你在做什麼嗎?
AI 代理把我們從「執行地獄」裡拉出來,同時丟了一個新任務:成為「流程建築師」。你準備好設計第一條自動化生產線了嗎?
💡
Agent 時代的入場券:把你腦子裡「憑感覺做判斷」的隱性知識,拆成一套可執行、可容錯的工作流程。
📌

資料來源

arXiv.orgarXiv.orgReAct: Synergizing Reasoning and Acting in Language Models
Model Context ProtocolModel Context ProtocolWhat is the Model Context Protocol (MCP)? - Model Context Protocol
arXiv.orgarXiv.orgChain-of-Thought Prompting Elicits Reasoning in Large Language Models
📝 更新日誌 (Changelog)
2026.06.14
  • 壓縮圖片、調整格式、文字編排
 

這篇有幫到你嗎?歡迎餵食煎餃 🥟

每篇文章都是踩坑後整理出來的,你的支持是最好的調味料。

請我喝杯咖啡
上一篇
公司該怎麼導入生成式 AI?策略評估、落地步驟與風險管理
下一篇
《晶片戰爭》讀書筆記:一顆晶片如何引爆全球權力角力?