證照考試/2025.12.05 發佈

iPAS AI︱機器學習全景圖:從演算法圖鑑、訓練優化到 MLOps 維運

字數 5819閱讀時間 15 分鐘
iPAS AI︱機器學習全景圖:從演算法圖鑑、訓練優化到 MLOps 維運

type
status
date
slug
summary
tags
category
icon
password

前言

這篇文章是我在準備「iPAS AI 規劃師初級」時留下的筆記。
L112 中,我們已經完成了資料的收集、清洗與隱私合規,確保手上的素材是乾淨可用的。
我按照官方學習指引科目一(L113)的架構將內容重組,進行了一些必要的刪減,並加入了一些圖解與輔助說明,希望能讓準備考試的人可以快速建立架構,也讓第一次接觸 AI 的人能在短時間抓到全貌。

 
notion image

第一部分:建模前的最後準備

資料清洗乾淨後,在進入模型訓練之前,必須進行關鍵的資料分析與前處理,確保數據品質能支撐模型預測。
notion image

1. 資料探索與分析 (EDA)

目的:在還沒跑模型前,先用統計圖表「看」出資料的長相與壞壞的地方。
圖表工具
用途與考點
直方圖 (Histogram)
資料分佈 (Distribution)。判斷是否有偏態,決定是否需做對數轉換 (Log Transform)。
散佈圖 (Scatter Plot)
兩變數關係。是不是線性的?有沒有 離群值 (Outliers)
箱型圖 (Box Plot)
異常值。超過「上下四分位距 (IQR)」的就是異常點。
熱力圖 (Heatmap)
相關性 (Correlation)。如果兩個特徵顏色太深 (相關性太高),可能有 多重共線性 問題,要刪掉一個。
notion image

2. 偏誤偵測 (Bias Detection)

目的:確保模型決策的公平性,避免因數據偏差導致歧視。
  • 樣本偏誤 (Sampling Bias):取樣不均。例:訓練資料 90% 是男性,導致模型認不出女性。
  • 標籤偏誤 (Label Bias):標註者本身有偏見。
  • 特徵偏誤 (Feature Bias):用了敏感特徵(如種族、郵遞區號)。
  • 💡 解決:資料去識別化、重採樣 (Resampling)、使用公平性指標。
notion image

3. 資料分割 (Data Splitting)

目的:驗證模型是否具有 泛化能力 (Generalization),而非單純記憶訓練資料。
  • 訓練集 (Training Set, 70-80%)課本。用來調整權重 (Weights)。
  • 驗證集 (Validation Set, 10-15%)模擬考。用來調整 超參數 (Hyperparameters)、選模型。
  • 測試集 (Test Set, 10-15%)大考。完全沒看過的資料,用來做最終評估。
💡
  • 交叉驗證 (Cross Validation)
    • K-Fold:把資料切 K 份,輪流當驗證集。
    • 優點:資料少時特別好用,能避免模型「剛好」只對某區段資料熟練。

第二部分:演算法完全圖鑑

了解各類演算法的運作邏輯與適用場景,是模型選擇的關鍵。
notion image

🟢 監督式學習 (Supervised)

notion image
1. 線性與邏輯家族
  • 線性回歸 (Linear Regression)
    • 核心原理:尋找一條最佳擬合直線來預測連續數值。
    • ⚠️ 關鍵限制:僅能處理 線性關係,對 離群值 極為敏感,容易被異常點拉偏。
    • 💡 實例:預測房價、預測氣溫、預測產品銷售量。
  • 邏輯回歸 (Logistic Regression)
    • 核心原理:透過 Sigmoid 函數將輸出壓縮至 0~1 之間,代表 機率。主要用於 二元分類
    • ⚠️ 關鍵概念:雖然名稱含「回歸」,但本質是用於 分類 任務。
    • 💡 實例:判斷郵件是否為垃圾信、客戶是否違約、腫瘤是良性或惡性。
  • Lasso / Ridge 回歸
    • 核心原理:在線性回歸損失函數中加入 正則化 (Regularization) 項。
    • ⚠️ 特性比較:→
      • Lasso (L1):傾向將係數壓縮至 0 → 具備 特徵選擇 功能。
      • Ridge (L2):傾向將係數變小但不為 0 → 著重於 防止過擬合

2. 決策樹與隨機森林
notion image
  • 決策樹 (Decision Tree)
    • 核心原理:樹狀決策結構 (If-Then)。透過資訊增益 (Information Gain) 或 Gini 係數決定分割點。
    • 優點:直觀易懂、可視化清楚、能處理數值與類別資料
    • ⚠️ 缺點:
      • 決策樹在訓練時會不斷切割資料,直到幾乎每個葉節點只剩少量樣本,導致「記太多細節」。
      • 結果就是:在訓練資料上準確率超高,但面對新資料時表現變差(泛化能力差)。
    • 💡 優化:需進行 剪枝 (Pruning) 或限制深度。
    • 實例:銀行貸款審核(年薪 > 100萬?→ 有房產?→ 核准)。
  • 隨機森林 (Random Forest)
    • 核心原理Bagging 技術。建立多棵決策樹,透過 投票 (Voting) 決定最終結果。
    • 每棵樹都用隨機挑選的資料樣本與特徵訓練,最後一起投票決定結果。
      • 隨機抽樣(Bootstrap Sampling):每棵樹用不同的樣本子集訓練。
      • 隨機特徵選擇(Random Feature Selection):每次分割時只看部分特徵,避免樹之間過於相似。
    • ⚠️ 關鍵特性:模型龐大、預測速度較慢。但穩定性高,抗雜訊能力強,不需繁瑣的特徵工程。
    • 💡 實例:信用評分、欺詐檢測。

3. 距離與機率家族
notion image
  • KNN (K-Nearest Neighbors, 最近鄰演算法)
    • 核心原理:給定一筆新資料,它會去找「訓練集中與它最接近的 K 個資料點」,再根據這些鄰居的標籤來預測新資料的類別或值。
    • ⚠️ 關鍵參數 (K)
      • K 值過小 → 易受雜訊干擾 (過擬合)。
      • K 值過大 → 邊界模糊 (欠擬合)。
      • 限制:計算成本隨資料量線性增長。
    • 💡 實例:簡易推薦系統(找出跟你看過一樣電影的 K 個人,看他們還喜歡什麼)。
  • 樸素貝葉斯 (Naive Bayes)
    • 核心原理:是一種基於「貝氏定理」的機率分類演算法,假設特徵彼此獨立,依各特徵出現機率來預測最可能的類別。
    • ⚠️ 關鍵特性:雖然獨立假設過於理想化,但在 文本分類 (如垃圾郵件、情感分析) 表現優異且運算極快。
    • 💡 實例:垃圾郵件過濾(出現 "中獎" 且 "免費" 的機率)、新聞分類。
  • SVM (支持向量機)
    • 核心原理:尋找能將類別區分開且 邊界 (Margin) 最大化 的超平面。
    • 想像有兩群人正在爭吵(兩類資料),你想在他們中間拉一條警戒線,讓雙方離那條線盡量遠一點,避免互相打架。
    • 這條線就是「最優超平面(Optimal Hyperplane)」,而離這條線最近的那些點,就叫做「支援向量(Support Vectors)」,因為正是它們決定了這條界線的位置。
    • ⚠️ 關鍵技巧Kernel Trick (核技巧)。將資料映射至高維空間以解決 非線性 分類問題。
    • 💡 實例:手寫數字辨識 (MNIST)、生物特徵分類。

4. 類神經網路 (Neural Networks)
notion image
  • CNN (卷積神經網路)
    • 適用場景影像辨識、電腦視覺。
    • ⚠️ 關鍵結構:卷積層 (提取特徵) + 池化層 (降維/保留特徵)。
    • 💡 實例:FaceID 人臉解鎖、自動駕駛路標辨識、醫療 X 光片判讀。
  • RNN / LSTM (遞迴神經網路)
    • 適用場景序列資料 (文字、語音、時間序列)。
    • ⚠️ 關鍵結構:具備記憶能力。LSTM 透過閘門機制解決了傳統 RNN 的 梯度消失 問題,適合長序列。
    • 💡 實例:語音輸入法、股市趨勢預測、機器翻譯(早期)。
  • Transformer
    • 適用場景NLP 自然語言處理 (BERT/GPT)。
    • ⚠️ 關鍵技術自注意力機制 (Self-Attention)。能並行運算捕捉長距離依賴關係,是現代大型語言模型的基石。
    • 💡 實例:Google 翻譯、ChatGPT、Copilot 程式碼生成。

🔵 非監督式學習 (Unsupervised)

💡
特徵:無標註資料,探索資料內在結構。
notion image
  • K-Means 分群
    • 核心原理:以距離為基準,將資料分為 K 個群。
    • ⚠️ 關鍵限制:需預先指定 K 值、對離群值敏感、僅適合球狀分佈。
    • 💡 實例:會員分級(金卡/銀卡/普卡)、T恤尺寸制定(S/M/L)。
  • DBSCAN 分群
    • 核心原理:基於密度的分群演算法。
    • ⚠️ 關鍵特性:不需指定群數、能識別並排除 雜訊 (Noise)、可處理任意形狀分佈。
    • 💡 實例:信用卡盜刷偵測(刷卡地點密度異常)、地理軌跡分析。
  • PCA (主成分分析)
    • 核心原理:透過線性投影,找出資料變異量最大的方向。
    • ⚠️ 關鍵用途降維 (Feature Reduction)、資料壓縮、視覺化前處理。
    • 💡 實例:影像壓縮、將 100 個特徵壓縮成 3 個以便畫圖。
  • Apriori (關聯規則)
    • 核心原理:挖掘頻繁項目集 (Frequent Itemsets)。
    • ⚠️ 關鍵指標
      • Support (支持度):出現頻率。
      • Confidence (信賴度):條件機率 (買A則買B)。
      • Lift (提升度):相關性強度 (Lift > 1 表示正相關)。
    • 💡 實例:超市購物籃分析(啤酒與尿布)、電商「買這商品的人也買了...」。

🟣 強化學習 (Reinforcement Learning)

notion image
特徵:透過試誤 (Trial-and-Error) 與獎勵機制 (Reward),學習最佳策略。
💡
核心原理
  • 智能體 (Agent) 在環境 (Environment) 中採取行動 (Action),根據獲得的獎勵 (Reward) 或懲罰來調整策略 (Policy),目標是最大化長期累積獎勵。
  • 學習過程是通過試錯 (Trial-and-Error) 進行的,智能體根據行動後獲得的獎勵(或懲罰)來調整其策略 (Policy),即在特定狀態 (State) 下選擇何種行動的規則。
  • ⚠️ 關鍵概念
    • Agent (智能體):做動作的主角。
    • Environment (環境):互動的場景。
    • State (狀態) & Action (行動):當下情況與採取的動作。
    • Reward (獎勵):評分標準 (分數)。
    • Policy (策略):決定在什麼狀態下該做什麼動作的規則。
  • ⚠️ 探索與利用 (Exploration vs. Exploitation)
    • 探索 (Exploration):嘗試新動作 (像是在「試試看」),尋找可能的高報酬。
    • 利用 (Exploitation):使用目前已知最好的招式 (照著學到的走),確保穩拿分數。
  • 常見演算法
    • Q-Learning:用表格 (Q-Table) 記錄「狀態 × 行動」的價值,查表找最佳解。
    • Deep Q-Network (DQN):用 類神經網路 取代 Q-Table,能處理複雜畫面 (如玩 Atari 遊戲)。
  • 💡 實例:遊戲AI(如圍棋AlphaGo、電子遊戲)、機器人控制(如學習行走、抓取)、自動駕駛(決策制定)、推薦系統、資源管理等。

第三部分:模型訓練與優化策略 (Training & Optimization)

注意:本節內容(反向傳播、優化器、Epoch)主要描述 類神經網路 (Deep Learning) 的訓練機制。
notion image
notion image

1. 內層循環:模型訓練流程 (The Training Loop)

此過程在固定的超參數設定下,透過多次迭代 (Epochs) 更新模型權重,以最小化損失函數。
步驟
名稱
做什麼
舉例
1
前向傳播 (Forward Propagation)
將輸入資料傳入模型,經過層層神經元運算,輸出預測值。
輸入一張圖片,模型輸出該圖片是「貓」的機率為 0.8。
2
計算損失 (Loss Calculation)
比對預測值與真實答案,算出誤差(例如 MSE、Cross Entropy)。
真實標籤是 1 (貓),預測是 0.8,算出誤差值。
3
反向傳播 (Backpropagation)
算出每個權重對誤差的影響(梯度)。
計算出若要減少誤差,該往哪個方向調整權重。
4
梯度下降 (Gradient Descent)
根據梯度更新權重,讓誤差更小。
實際執行權重的加減,讓模型下次預測更準。
5
重複多輪 (Epochs)
多次重複 1~4 步,直到模型收斂。
跑完 100 個 Epochs。

notion image

2. 外層循環:超參數調整 (Hyperparameter Tuning)

此過程旨在尋找最佳的超參數組合,以提升模型在驗證集上的表現。
步驟
名稱
做什麼
舉例
1
設定超參數 (Hyperparameter Setting)
人工指定無法被訓練的參數(如結構、學習率)。
設定學習率 0.01、Batch Size 32、層數 5 層。
2
執行訓練 (Execute Training)
使用設定好的參數,跑完上面的「內層循環」。
開始跑 50 個 Epochs,觀察 Loss 下降。
3
驗證評估 (Validation)
用沒看過的「驗證集」考試,看模型是否過擬合。
訓練集 99分,驗證集只有 70分 → 過擬合。
4
調整超參數 (Hyperparameter Tuning)
根據驗證結果修改設定,重新開始。
降低學習率,增加 Dropout 層。
5
重複流程 (Iterate)
不斷嘗試不同組合,直到找到最佳解。
使用 Grid Search 自動跑 100 組設定。
🔁 重複整個流程:不斷迭代直到找到在驗證集上表現最好的超參數組合。

3. 關鍵元件:損失函數 (Loss Function)

notion image
衡量模型預測誤差的標準,依任務類型選擇。
  • MSE (均方誤差)
    • 用途:回歸任務(預測連續數值)。
    • 定義:計算預測值與真實值差值的平方平均。對大誤差較敏感。
    • 💡 說明:若預測偏差較大,平方後懲罰會顯著增加,迫使模型修正大錯誤。
  • MAE (平均絕對誤差)
    • 用途:回歸任務。
    • 定義:計算預測值與真實值差值的絕對值平均。對離群值容忍度較高。
    • 💡 說明:誤差計算較為線性平穩,適合數據中含有雜訊的場景。
  • Cross Entropy (交叉熵)
    • 用途:分類任務(預測機率)。
    • 定義:衡量兩個機率分佈(預測分佈 vs 真實分佈)的差異。
    • 💡 說明:若模型對正確類別的預測機率越低(越沒信心),產生的 Loss 就會呈指數級上升。

notion image

4. 關鍵元件:反向傳播 (Backpropagation) 問題與解法

  • 計算損失函數(Loss Function)相對於網路中所有參數(權重和偏差)的偏導數(梯度)
  • 藉由計算出的梯度,指導優化演算法如何調整這些參數。
  • 最終目標是最小化整體損失,讓神經網路得以從錯誤中學習並調整自身。
雖然反向傳播是核心機制,但在深層網路中容易遇到問題:
  • 梯度消失 (Vanishing Gradient)
    • 現象:誤差往前傳遞時數值越來越小,導致前端層級的權重幾乎不更新,學不到特徵。
    • 原因:層數太深,或使用導數值較小的激活函數 (如 Sigmoid/Tanh)。
    • 解法:使用 ReLU / Leaky ReLU 激活函數、Batch Normalization、或 ResNet (殘差連接)
  • 梯度爆炸 (Exploding Gradient)
    • 現象:誤差往前傳遞時數值越來越大,導致權重劇烈波動,Loss 不穩定甚至發散 (NaN)。
    • 原因:權重初始化過大,或網路層數過深。
    • 解法Gradient Clipping (梯度裁剪)、使用正規化初始化方法 (如 Xavier / He Initialization)。

5. 關鍵元件:梯度下降與優化器 (Gradient Descent & Optimizer)

notion image
🔹 梯度下降 (Gradient Descent)
一種利用損失函數的偏導數(梯度)來更新參數,使誤差最小化的演算法。常見有三種形式:
  • Batch Gradient Descent (批次梯度下降)
    • 定義:一次使用 全部 資料計算平均梯度後,才更新一次權重。
    • 特性:方向精準、收斂穩定,但計算量大、訓練速度慢。
  • Stochastic Gradient Descent (SGD, 隨機梯度下降)
    • 定義:每次僅使用 一筆 資料計算梯度並更新權重。
    • 特性:更新極快,有助於跳出局部最小值,但收斂過程極不穩定、容易震盪。
  • Mini-Batch Gradient Descent (小批次梯度下降)
    • 定義:每次使用 一小批 (如 32, 64 筆) 資料計算梯度。
    • 特性:平衡了計算效率與穩定性,是 實務上最常用 的方法。
🔹 優化器 (Optimizer)
優化器可視為「梯度下降的外掛」,決定如何利用梯度來更新權重,目的是加速收斂並避免陷入局部最佳解。
  • SGD:最基礎的優化器,無動量機制。
  • Momentum:加入「動量」(慣性)機制,讓參數更新方向更平滑,減少震盪。
  • Adam:結合動量與 RMSprop (自適應學習率),能自動調整每個參數的學習步伐,收斂快且穩。
notion image
⚠️ 局部最小值 (Local Minima) 問題
  • 複雜的損失函數中,可能會存在「多個極小值」。
  • 模型有可能停在「看起來低,但其實不是最低」的地方 → 這就是局部最小值問題。
  • 解法:
    • 使用隨機初始化、動量(Momentum)等方法幫助跳出
    • 進階優化器(如 Adam)在某程度上可降低此問題

notion image

6. 泛化能力提升 (Generalization)

💡
核心挑戰:過擬合 (Overfitting)
模型在訓練資料上表現很好,但在新資料上表現差。
目標是讓模型「學會規律,不背答案」,在未知資料上也能維持準確。
解決 Overfitting (過擬合) 的四大策略:
策略層面
關鍵手段 (Tools)
核心邏輯 (The Logic)
(A) 資料面
1. 資料擴增 (Augmentation) 2. 資料平衡 (Balancing) 3. 合成資料 (Synthetic Data)
「見多識廣」 給模型看更多變體(翻轉、加噪聲),或用生成式 AI 補足稀缺資料,強迫它學特徵而非死記像素。
(B) 模型面
1. Dropout (隨機拋棄) 2. Regularization (正則化) 3. 模型簡化
「增加難度」 故意關掉部分神經元 (Dropout),或懲罰太複雜的權重 (L1/L2),強迫模型找出最強健的規則。
(C) 流程面
1. 提前停止 (Early Stopping) 2. 交叉驗證 (Cross Validation)
「見好就收」 在考試(驗證集)成績開始變差前停止訓練;或是輪流切換考題,避免運氣好猜對。
(D) 組合面
1. Bagging (Random Forest) 2. Boosting (XGBoost)
「團體戰」 三個臭皮匠勝過一個諸葛亮。結合多個模型的意見來投票,降低單一模型的偏見或錯誤。

第四部分:模型評估

notion image

1. 分類指標 (Confusion Matrix)

指標 (Metric)
核心意義 (Meaning)
應用情境與備註 (Focus)
Accuracy (準確率)
整體考幾分
資料分佈平均時使用。 ⚠️ 資料不平衡時會失準 (99% 都是狗,全猜狗也有 99 分)。
Precision (精確率)
寧缺勿濫
預測為「正」的,有多少是真的? 💡 用於垃圾郵件過濾 (避免誤刪重要信件)。
Recall (召回率)
寧濫勿缺
真正的「正」樣本,抓出了多少? 💡 用於傳染病篩檢、地震預警 (不能漏抓)。
F1-score (F1 分數)
平衡觀點
Precision 與 Recall 的綜合考量。 💡 兩難時的最佳參考指標。
AUC / ROC
評估模型鑑別力
AUC = 0.5 是亂猜,1.0 是神。 💡 資料不平衡時特別好用。曲線越高越好,AUC 接近 1 表示模型判別力強。
notion image

2. 回歸指標 (Regression Metrics)

指標 (Metric)
意義與特性 (Characteristics)
MAE (平均絕對誤差)
誤差絕對值的平均。 對離群值較不敏感,適合雜訊較多的資料。
MSE (均方誤差)
誤差平方的平均。 對大誤差懲罰重 (因為平方放大了),適合嚴格要求準確度的場景。
RMSE (均方根誤差)
MSE 開根號。 單位跟原始資料一樣 (例如:元、度),比較好直觀理解誤差大小。
(決定係數)
0 ~ 1 之間。 代表模型解釋了多少資料變異。越接近 1 代表模型擬合越完美。

第五部分:模型生命週期與維運 (Deployment & MLOps)

模型訓練完成不是結束,而是「持續學習」的開始。AI 系統需要不斷適應真實世界的變化。
notion image

1. 部署與推論 (Deployment & Inference)

定義:將訓練好的模型放進真實環境,提供預測服務。
  • Inference (推論):模型實際應用時的計算過程(區別於 Training)。
  • 部署位置
    • 本地端 (On-premise):公司內部伺服器(安全、可控)。
    • 雲端 (Cloud):AWS, GCP, Azure(彈性、易擴充)。
    • 邊緣 (Edge):手機、IoT 裝置(低延遲、隱私好)。
notion image

2. 監控與模型飄移 (Monitoring & Drift)

飄移類型 (Type)
定義與成因 (Definition & Cause)
實例 (Example)
資料飄移 (Data Drift)
輸入資料 (Input) 的分佈變了。 使用者行為、環境、季節、設備、感測器等外在因素導致特徵分佈改變。
原本訓練夏天的銷售數據,現在進入冬天,氣溫特徵完全不同。
概念飄移 (Concept Drift)
輸入與輸出的關係 (Logic) 變了。 真實世界規則更新或市場偏好轉變,使相同特徵不再對應相同結果。
同樣的房屋坪數與地段,受通膨或政策影響,對應的房價邏輯變了。
模型飄移 (Model Drift)
模型本身性能隨時間退化。權重不再適應環境、資料不平衡加劇、部署環境變動、硬體差異、模型老化導致效能下降。
模型原本能精準預測使用者推薦結果,但隨著內容更新、使用者喜好快速變化,模型越來越不準需重新訓練。
💡
因應策略:
  1. 建立 MLOps 流程,持續監控模型效能。
  1. 當發現指標下降時,觸發 再訓練 (Retraining) 機制,用新資料更新模型。
 
 
 
 
Gemini Educator 考證實錄:關於隱私、Prompt 與那些我誤會 Google 的事iPAS AI︱資料分析入門:一次搞懂資料處理、清理、特徵與統計
Loading...
煎餃沾醬
煎餃沾醬

一顆外皮酥脆、內餡熱騰騰的煎餃,在這裡把生活、技術與靈感通通拿來調味。

公告
這裡還在慢慢成形。
煎餃正在為這個小實驗室調整味道、整理筆記、加熱想法。 版面與內容都會逐步完善,感謝你的耐心等待。
2025煎餃沾醬.

煎餃的調味實驗室 | 一顆外皮酥脆、內餡熱騰騰的煎餃,在這裡把生活、技術與靈感通通拿來調味。

Powered byNotionNext 4.9.2.