type
status
date
slug
summary
tags
category
icon
password
前言
這篇文章是我在準備「iPAS AI 規劃師初級」時留下的筆記。
在 L112 中,我們已經完成了資料的收集、清洗與隱私合規,確保手上的素材是乾淨可用的。
我按照官方學習指引科目一(L113)的架構將內容重組,進行了一些必要的刪減,並加入了一些圖解與輔助說明,希望能讓準備考試的人可以快速建立架構,也讓第一次接觸 AI 的人能在短時間抓到全貌。

第一部分:建模前的最後準備
資料清洗乾淨後,在進入模型訓練之前,必須進行關鍵的資料分析與前處理,確保數據品質能支撐模型預測。

1. 資料探索與分析 (EDA)
目的:在還沒跑模型前,先用統計圖表「看」出資料的長相與壞壞的地方。
圖表工具 | 用途與考點 |
直方圖 (Histogram) | 看 資料分佈 (Distribution)。判斷是否有偏態,決定是否需做對數轉換 (Log Transform)。 |
散佈圖 (Scatter Plot) | 看 兩變數關係。是不是線性的?有沒有 離群值 (Outliers)? |
箱型圖 (Box Plot) | 抓 異常值。超過「上下四分位距 (IQR)」的就是異常點。 |
熱力圖 (Heatmap) | 看 相關性 (Correlation)。如果兩個特徵顏色太深 (相關性太高),可能有 多重共線性 問題,要刪掉一個。 |

2. 偏誤偵測 (Bias Detection)
目的:確保模型決策的公平性,避免因數據偏差導致歧視。
- 樣本偏誤 (Sampling Bias):取樣不均。例:訓練資料 90% 是男性,導致模型認不出女性。
- 標籤偏誤 (Label Bias):標註者本身有偏見。
- 特徵偏誤 (Feature Bias):用了敏感特徵(如種族、郵遞區號)。
- 💡 解決:資料去識別化、重採樣 (Resampling)、使用公平性指標。

3. 資料分割 (Data Splitting)
目的:驗證模型是否具有 泛化能力 (Generalization),而非單純記憶訓練資料。
- 訓練集 (Training Set, 70-80%):課本。用來調整權重 (Weights)。
- 驗證集 (Validation Set, 10-15%):模擬考。用來調整 超參數 (Hyperparameters)、選模型。
- 測試集 (Test Set, 10-15%):大考。完全沒看過的資料,用來做最終評估。
- 交叉驗證 (Cross Validation):
- K-Fold:把資料切 K 份,輪流當驗證集。
- 優點:資料少時特別好用,能避免模型「剛好」只對某區段資料熟練。
第二部分:演算法完全圖鑑
了解各類演算法的運作邏輯與適用場景,是模型選擇的關鍵。

🟢 監督式學習 (Supervised)

1. 線性與邏輯家族
- 線性回歸 (Linear Regression)
- 核心原理:尋找一條最佳擬合直線來預測連續數值。
- ⚠️ 關鍵限制:僅能處理 線性關係,對 離群值 極為敏感,容易被異常點拉偏。
- 💡 實例:預測房價、預測氣溫、預測產品銷售量。
- 邏輯回歸 (Logistic Regression)
- 核心原理:透過 Sigmoid 函數將輸出壓縮至 0~1 之間,代表 機率。主要用於 二元分類。
- ⚠️ 關鍵概念:雖然名稱含「回歸」,但本質是用於 分類 任務。
- 💡 實例:判斷郵件是否為垃圾信、客戶是否違約、腫瘤是良性或惡性。
- Lasso / Ridge 回歸
- 核心原理:在線性回歸損失函數中加入 正則化 (Regularization) 項。
- ⚠️ 特性比較:→
- Lasso (L1):傾向將係數壓縮至 0 → 具備 特徵選擇 功能。
- Ridge (L2):傾向將係數變小但不為 0 → 著重於 防止過擬合。
2. 決策樹與隨機森林

- 決策樹 (Decision Tree)
- 核心原理:樹狀決策結構 (If-Then)。透過資訊增益 (Information Gain) 或 Gini 係數決定分割點。
- ✅ 優點:直觀易懂、可視化清楚、能處理數值與類別資料
- ⚠️ 缺點:
- 決策樹在訓練時會不斷切割資料,直到幾乎每個葉節點只剩少量樣本,導致「記太多細節」。
- 結果就是:在訓練資料上準確率超高,但面對新資料時表現變差(泛化能力差)。
- 💡 優化:需進行 剪枝 (Pruning) 或限制深度。
- 實例:銀行貸款審核(年薪 > 100萬?→ 有房產?→ 核准)。
- 隨機森林 (Random Forest)
- 核心原理:Bagging 技術。建立多棵決策樹,透過 投票 (Voting) 決定最終結果。
- 每棵樹都用隨機挑選的資料樣本與特徵訓練,最後一起投票決定結果。
- 隨機抽樣(Bootstrap Sampling):每棵樹用不同的樣本子集訓練。
- 隨機特徵選擇(Random Feature Selection):每次分割時只看部分特徵,避免樹之間過於相似。
- ⚠️ 關鍵特性:模型龐大、預測速度較慢。但穩定性高,抗雜訊能力強,不需繁瑣的特徵工程。
- 💡 實例:信用評分、欺詐檢測。
3. 距離與機率家族

- KNN (K-Nearest Neighbors, 最近鄰演算法)
- 核心原理:給定一筆新資料,它會去找「訓練集中與它最接近的 K 個資料點」,再根據這些鄰居的標籤來預測新資料的類別或值。
- ⚠️ 關鍵參數 (K):
- K 值過小 → 易受雜訊干擾 (過擬合)。
- K 值過大 → 邊界模糊 (欠擬合)。
- 限制:計算成本隨資料量線性增長。
- 💡 實例:簡易推薦系統(找出跟你看過一樣電影的 K 個人,看他們還喜歡什麼)。
- 樸素貝葉斯 (Naive Bayes)
- 核心原理:是一種基於「貝氏定理」的機率分類演算法,假設特徵彼此獨立,依各特徵出現機率來預測最可能的類別。
- ⚠️ 關鍵特性:雖然獨立假設過於理想化,但在 文本分類 (如垃圾郵件、情感分析) 表現優異且運算極快。
- 💡 實例:垃圾郵件過濾(出現 "中獎" 且 "免費" 的機率)、新聞分類。
- SVM (支持向量機)
- 核心原理:尋找能將類別區分開且 邊界 (Margin) 最大化 的超平面。
- 想像有兩群人正在爭吵(兩類資料),你想在他們中間拉一條警戒線,讓雙方離那條線盡量遠一點,避免互相打架。
- 這條線就是「最優超平面(Optimal Hyperplane)」,而離這條線最近的那些點,就叫做「支援向量(Support Vectors)」,因為正是它們決定了這條界線的位置。
- ⚠️ 關鍵技巧:Kernel Trick (核技巧)。將資料映射至高維空間以解決 非線性 分類問題。
- 💡 實例:手寫數字辨識 (MNIST)、生物特徵分類。
4. 類神經網路 (Neural Networks)

- CNN (卷積神經網路)
- 適用場景:影像辨識、電腦視覺。
- ⚠️ 關鍵結構:卷積層 (提取特徵) + 池化層 (降維/保留特徵)。
- 💡 實例:FaceID 人臉解鎖、自動駕駛路標辨識、醫療 X 光片判讀。
- RNN / LSTM (遞迴神經網路)
- 適用場景:序列資料 (文字、語音、時間序列)。
- ⚠️ 關鍵結構:具備記憶能力。LSTM 透過閘門機制解決了傳統 RNN 的 梯度消失 問題,適合長序列。
- 💡 實例:語音輸入法、股市趨勢預測、機器翻譯(早期)。
- Transformer
- 適用場景:NLP 自然語言處理 (BERT/GPT)。
- ⚠️ 關鍵技術:自注意力機制 (Self-Attention)。能並行運算捕捉長距離依賴關係,是現代大型語言模型的基石。
- 💡 實例:Google 翻譯、ChatGPT、Copilot 程式碼生成。
🔵 非監督式學習 (Unsupervised)
特徵:無標註資料,探索資料內在結構。

- K-Means 分群
- 核心原理:以距離為基準,將資料分為 K 個群。
- ⚠️ 關鍵限制:需預先指定 K 值、對離群值敏感、僅適合球狀分佈。
- 💡 實例:會員分級(金卡/銀卡/普卡)、T恤尺寸制定(S/M/L)。
- DBSCAN 分群
- 核心原理:基於密度的分群演算法。
- ⚠️ 關鍵特性:不需指定群數、能識別並排除 雜訊 (Noise)、可處理任意形狀分佈。
- 💡 實例:信用卡盜刷偵測(刷卡地點密度異常)、地理軌跡分析。
- PCA (主成分分析)
- 核心原理:透過線性投影,找出資料變異量最大的方向。
- ⚠️ 關鍵用途:降維 (Feature Reduction)、資料壓縮、視覺化前處理。
- 💡 實例:影像壓縮、將 100 個特徵壓縮成 3 個以便畫圖。
- Apriori (關聯規則)
- 核心原理:挖掘頻繁項目集 (Frequent Itemsets)。
- ⚠️ 關鍵指標:
- Support (支持度):出現頻率。
- Confidence (信賴度):條件機率 (買A則買B)。
- Lift (提升度):相關性強度 (Lift > 1 表示正相關)。
- 💡 實例:超市購物籃分析(啤酒與尿布)、電商「買這商品的人也買了...」。
🟣 強化學習 (Reinforcement Learning)

特徵:透過試誤 (Trial-and-Error) 與獎勵機制 (Reward),學習最佳策略。
核心原理:
- 智能體 (Agent) 在環境 (Environment) 中採取行動 (Action),根據獲得的獎勵 (Reward) 或懲罰來調整策略 (Policy),目標是最大化長期累積獎勵。
- 學習過程是通過試錯 (Trial-and-Error) 進行的,智能體根據行動後獲得的獎勵(或懲罰)來調整其策略 (Policy),即在特定狀態 (State) 下選擇何種行動的規則。
- ⚠️ 關鍵概念:
- Agent (智能體):做動作的主角。
- Environment (環境):互動的場景。
- State (狀態) & Action (行動):當下情況與採取的動作。
- Reward (獎勵):評分標準 (分數)。
- Policy (策略):決定在什麼狀態下該做什麼動作的規則。
- ⚠️ 探索與利用 (Exploration vs. Exploitation):
- 探索 (Exploration):嘗試新動作 (像是在「試試看」),尋找可能的高報酬。
- 利用 (Exploitation):使用目前已知最好的招式 (照著學到的走),確保穩拿分數。
- 常見演算法:
- Q-Learning:用表格 (Q-Table) 記錄「狀態 × 行動」的價值,查表找最佳解。
- Deep Q-Network (DQN):用 類神經網路 取代 Q-Table,能處理複雜畫面 (如玩 Atari 遊戲)。
- 💡 實例:遊戲AI(如圍棋AlphaGo、電子遊戲)、機器人控制(如學習行走、抓取)、自動駕駛(決策制定)、推薦系統、資源管理等。
第三部分:模型訓練與優化策略 (Training & Optimization)
注意:本節內容(反向傳播、優化器、Epoch)主要描述 類神經網路 (Deep Learning) 的訓練機制。


1. 內層循環:模型訓練流程 (The Training Loop)
此過程在固定的超參數設定下,透過多次迭代 (Epochs) 更新模型權重,以最小化損失函數。
步驟 | 名稱 | 做什麼 | 舉例 |
1 | 前向傳播 (Forward Propagation) | 將輸入資料傳入模型,經過層層神經元運算,輸出預測值。 | 輸入一張圖片,模型輸出該圖片是「貓」的機率為 0.8。 |
2 | 計算損失 (Loss Calculation) | 比對預測值與真實答案,算出誤差(例如 MSE、Cross Entropy)。 | 真實標籤是 1 (貓),預測是 0.8,算出誤差值。 |
3 | 反向傳播 (Backpropagation) | 算出每個權重對誤差的影響(梯度)。 | 計算出若要減少誤差,該往哪個方向調整權重。 |
4 | 梯度下降 (Gradient Descent) | 根據梯度更新權重,讓誤差更小。 | 實際執行權重的加減,讓模型下次預測更準。 |
5 | 重複多輪 (Epochs) | 多次重複 1~4 步,直到模型收斂。 | 跑完 100 個 Epochs。 |

2. 外層循環:超參數調整 (Hyperparameter Tuning)
此過程旨在尋找最佳的超參數組合,以提升模型在驗證集上的表現。
步驟 | 名稱 | 做什麼 | 舉例 |
1 | 設定超參數 (Hyperparameter Setting) | 人工指定無法被訓練的參數(如結構、學習率)。 | 設定學習率 0.01、Batch Size 32、層數 5 層。 |
2 | 執行訓練 (Execute Training) | 使用設定好的參數,跑完上面的「內層循環」。 | 開始跑 50 個 Epochs,觀察 Loss 下降。 |
3 | 驗證評估 (Validation) | 用沒看過的「驗證集」考試,看模型是否過擬合。 | 訓練集 99分,驗證集只有 70分 → 過擬合。 |
4 | 調整超參數 (Hyperparameter Tuning) | 根據驗證結果修改設定,重新開始。 | 降低學習率,增加 Dropout 層。 |
5 | 重複流程 (Iterate) | 不斷嘗試不同組合,直到找到最佳解。 | 使用 Grid Search 自動跑 100 組設定。 |
🔁 重複整個流程:不斷迭代直到找到在驗證集上表現最好的超參數組合。
3. 關鍵元件:損失函數 (Loss Function)

衡量模型預測誤差的標準,依任務類型選擇。
- MSE (均方誤差)
- 用途:回歸任務(預測連續數值)。
- 定義:計算預測值與真實值差值的平方平均。對大誤差較敏感。
- 💡 說明:若預測偏差較大,平方後懲罰會顯著增加,迫使模型修正大錯誤。
- MAE (平均絕對誤差)
- 用途:回歸任務。
- 定義:計算預測值與真實值差值的絕對值平均。對離群值容忍度較高。
- 💡 說明:誤差計算較為線性平穩,適合數據中含有雜訊的場景。
- Cross Entropy (交叉熵)
- 用途:分類任務(預測機率)。
- 定義:衡量兩個機率分佈(預測分佈 vs 真實分佈)的差異。
- 💡 說明:若模型對正確類別的預測機率越低(越沒信心),產生的 Loss 就會呈指數級上升。

4. 關鍵元件:反向傳播 (Backpropagation) 問題與解法
- 計算損失函數(Loss Function)相對於網路中所有參數(權重和偏差)的偏導數(梯度)。
- 藉由計算出的梯度,指導優化演算法如何調整這些參數。
- 最終目標是最小化整體損失,讓神經網路得以從錯誤中學習並調整自身。
雖然反向傳播是核心機制,但在深層網路中容易遇到問題:
- 梯度消失 (Vanishing Gradient)
- 現象:誤差往前傳遞時數值越來越小,導致前端層級的權重幾乎不更新,學不到特徵。
- 原因:層數太深,或使用導數值較小的激活函數 (如 Sigmoid/Tanh)。
- 解法:使用 ReLU / Leaky ReLU 激活函數、Batch Normalization、或 ResNet (殘差連接)。
- 梯度爆炸 (Exploding Gradient)
- 現象:誤差往前傳遞時數值越來越大,導致權重劇烈波動,Loss 不穩定甚至發散 (NaN)。
- 原因:權重初始化過大,或網路層數過深。
- 解法:Gradient Clipping (梯度裁剪)、使用正規化初始化方法 (如 Xavier / He Initialization)。
5. 關鍵元件:梯度下降與優化器 (Gradient Descent & Optimizer)

🔹 梯度下降 (Gradient Descent)
一種利用損失函數的偏導數(梯度)來更新參數,使誤差最小化的演算法。常見有三種形式:
- Batch Gradient Descent (批次梯度下降)
- 定義:一次使用 全部 資料計算平均梯度後,才更新一次權重。
- 特性:方向精準、收斂穩定,但計算量大、訓練速度慢。
- Stochastic Gradient Descent (SGD, 隨機梯度下降)
- 定義:每次僅使用 一筆 資料計算梯度並更新權重。
- 特性:更新極快,有助於跳出局部最小值,但收斂過程極不穩定、容易震盪。
- Mini-Batch Gradient Descent (小批次梯度下降)
- 定義:每次使用 一小批 (如 32, 64 筆) 資料計算梯度。
- 特性:平衡了計算效率與穩定性,是 實務上最常用 的方法。
🔹 優化器 (Optimizer)
優化器可視為「梯度下降的外掛」,決定如何利用梯度來更新權重,目的是加速收斂並避免陷入局部最佳解。
- SGD:最基礎的優化器,無動量機制。
- Momentum:加入「動量」(慣性)機制,讓參數更新方向更平滑,減少震盪。
- Adam:結合動量與 RMSprop (自適應學習率),能自動調整每個參數的學習步伐,收斂快且穩。

⚠️ 局部最小值 (Local Minima) 問題
- 複雜的損失函數中,可能會存在「多個極小值」。
- 模型有可能停在「看起來低,但其實不是最低」的地方 → 這就是局部最小值問題。
- 解法:
- 使用隨機初始化、動量(Momentum)等方法幫助跳出
- 進階優化器(如 Adam)在某程度上可降低此問題

6. 泛化能力提升 (Generalization)
核心挑戰:過擬合 (Overfitting)
模型在訓練資料上表現很好,但在新資料上表現差。
目標是讓模型「學會規律,不背答案」,在未知資料上也能維持準確。
解決 Overfitting (過擬合) 的四大策略:
策略層面 | 關鍵手段 (Tools) | 核心邏輯 (The Logic) |
(A) 資料面 | 1. 資料擴增 (Augmentation)
2. 資料平衡 (Balancing)
3. 合成資料 (Synthetic Data) | 「見多識廣」
給模型看更多變體(翻轉、加噪聲),或用生成式 AI 補足稀缺資料,強迫它學特徵而非死記像素。 |
(B) 模型面 | 1. Dropout (隨機拋棄)
2. Regularization (正則化)
3. 模型簡化 | 「增加難度」
故意關掉部分神經元 (Dropout),或懲罰太複雜的權重 (L1/L2),強迫模型找出最強健的規則。 |
(C) 流程面 | 1. 提前停止 (Early Stopping)
2. 交叉驗證 (Cross Validation) | 「見好就收」
在考試(驗證集)成績開始變差前停止訓練;或是輪流切換考題,避免運氣好猜對。 |
(D) 組合面 | 1. Bagging (Random Forest)
2. Boosting (XGBoost) | 「團體戰」
三個臭皮匠勝過一個諸葛亮。結合多個模型的意見來投票,降低單一模型的偏見或錯誤。 |
第四部分:模型評估

1. 分類指標 (Confusion Matrix)
指標 (Metric) | 核心意義 (Meaning) | 應用情境與備註 (Focus) |
Accuracy (準確率) | 整體考幾分 | 資料分佈平均時使用。
⚠️ 資料不平衡時會失準 (99% 都是狗,全猜狗也有 99 分)。 |
Precision (精確率) | 寧缺勿濫 | 預測為「正」的,有多少是真的?
💡 用於垃圾郵件過濾 (避免誤刪重要信件)。 |
Recall (召回率) | 寧濫勿缺 | 真正的「正」樣本,抓出了多少?
💡 用於傳染病篩檢、地震預警 (不能漏抓)。 |
F1-score (F1 分數) | 平衡觀點 | Precision 與 Recall 的綜合考量。
💡 兩難時的最佳參考指標。 |
AUC / ROC | 評估模型鑑別力 | AUC = 0.5 是亂猜,1.0 是神。
💡 資料不平衡時特別好用。曲線越高越好,AUC 接近 1 表示模型判別力強。 |

2. 回歸指標 (Regression Metrics)
指標 (Metric) | 意義與特性 (Characteristics) |
MAE (平均絕對誤差) | 誤差絕對值的平均。
對離群值較不敏感,適合雜訊較多的資料。 |
MSE (均方誤差) | 誤差平方的平均。
對大誤差懲罰重 (因為平方放大了),適合嚴格要求準確度的場景。 |
RMSE (均方根誤差) | MSE 開根號。
單位跟原始資料一樣 (例如:元、度),比較好直觀理解誤差大小。 |
R² (決定係數) | 0 ~ 1 之間。
代表模型解釋了多少資料變異。越接近 1 代表模型擬合越完美。 |
第五部分:模型生命週期與維運 (Deployment & MLOps)
模型訓練完成不是結束,而是「持續學習」的開始。AI 系統需要不斷適應真實世界的變化。

1. 部署與推論 (Deployment & Inference)
定義:將訓練好的模型放進真實環境,提供預測服務。
- Inference (推論):模型實際應用時的計算過程(區別於 Training)。
- 部署位置:
- 本地端 (On-premise):公司內部伺服器(安全、可控)。
- 雲端 (Cloud):AWS, GCP, Azure(彈性、易擴充)。
- 邊緣 (Edge):手機、IoT 裝置(低延遲、隱私好)。

2. 監控與模型飄移 (Monitoring & Drift)
飄移類型 (Type) | 定義與成因 (Definition & Cause) | 實例 (Example) |
資料飄移
(Data Drift) | 輸入資料 (Input) 的分佈變了。
使用者行為、環境、季節、設備、感測器等外在因素導致特徵分佈改變。 | 原本訓練夏天的銷售數據,現在進入冬天,氣溫特徵完全不同。 |
概念飄移
(Concept Drift) | 輸入與輸出的關係 (Logic) 變了。
真實世界規則更新或市場偏好轉變,使相同特徵不再對應相同結果。 | 同樣的房屋坪數與地段,受通膨或政策影響,對應的房價邏輯變了。 |
模型飄移
(Model Drift) | 模型本身性能隨時間退化。權重不再適應環境、資料不平衡加劇、部署環境變動、硬體差異、模型老化導致效能下降。 | 模型原本能精準預測使用者推薦結果,但隨著內容更新、使用者喜好快速變化,模型越來越不準需重新訓練。 |
因應策略:
- 建立 MLOps 流程,持續監控模型效能。
- 當發現指標下降時,觸發 再訓練 (Retraining) 機制,用新資料更新模型。
.png?table=collection&id=2ba70f01-9634-81f4-8376-000b1aff7bf1&t=2ba70f01-9634-81f4-8376-000b1aff7bf1)


