證照考試/2025.12.03 發佈/2025.12.05 更新

iPAS AI︱資料分析入門:一次搞懂資料處理、清理、特徵與統計

字數 6963閱讀時間 18 分鐘
iPAS AI︱資料分析入門:一次搞懂資料處理、清理、特徵與統計

type
status
date
slug
summary
tags
category
icon
password

前言

這篇文章是我在準備「iPAS AI 規劃師初級」時留下的筆記,我按照官方學習指引科目一(L112)的架構將內容重組,並加入了一些圖解與輔助說明,希望能讓準備考試的人可以快速建立架構,也讓第一次接觸 AI 的人能在短時間抓到全貌。

第一步:認識資料的本質與形態

1. 數據的宇宙:大數據 4V 特性

大數據的 4V 特性:數據量(Volume)、速度(Velocity)、多樣性(Variety)、價值(Value)以貓咪插圖呈現。
大數據的 4V 特性:數據量(Volume)、速度(Velocity)、多樣性(Variety)、價值(Value)以貓咪插圖呈現。
  • 數量 (Volume)
    • 資料規模龐大。
    • 舉例:全球每天新增數億張照片或影片;單一智慧工廠每分鐘產生數 TB 的感測器數據。
  • 速度 (Velocity)
    • 資料產生與處理速度快。
    • 舉例:Google 地圖或即時導航 App 的路況更新,必須每幾秒鐘就分析數百萬輛汽車的回傳數據;或是短影音平台根據你觀看時間的微小變化,即時推送下一個影片。
  • 多樣性 (Variety): 包含各種格式。
    • 你的手機每天生成的數據:(1) 聯絡人清單 (結構化) + (2) 你拍的照片/短片 (非結構化) + (3) App 的設定檔或網頁的快取 (半結構化)。
  • 價值 (Value)
    • 數據背後蘊藏的商業價值。
    • 影音串流平台(如 Netflix 或 YouTube):從數十億次的觀看紀錄中,精準預測你接下來會點擊哪部影片,讓你持續「黏」在平台上,願意續訂。
 

2. 資料的「長相」:資料型態分類

三隻貓咪用不同方式呈現資料類型:透明盒中代表結構化資料、掛滿標籤代表半結構化資料、從牛奶灘冒出的貓象徵非結構化資料。
三隻貓咪用不同方式呈現資料類型:透明盒中代表結構化資料、掛滿標籤代表半結構化資料、從牛奶灘冒出的貓象徵非結構化資料。
  • 結構化資料 (Structured Data)
    • 關聯式資料庫、欄位明確、易於統計(如 SQL, CSV)。
    • 就像銀行存摺身份證。它的格式是「固定死」的,電腦一掃描就知道哪裡是「姓名」、哪裡是「餘額」。因為欄位規矩,所以計算總數或平均數非常快。
  • 非結構化資料 (Unstructured Data)
    • 影像、文字、語音等,需要 AI 轉換特徵。
    • 就像你家抽屜裡塞滿的舊照片、隨手寫的便條紙或錄音檔。電腦無法直接用 Excel 的方式去計算它們。你需要靠 AI(例如:人臉辨識或語音轉文字)先幫它「看懂」或「聽懂」,把內容轉成數字後才能分析。
  • 半結構化資料 (Semi-structured Data)
    • JSON、XML、YAML,有欄位但格式不固定。
    • 就像網購的電子訂單。雖然有固定的標籤(例如:訂單編號收件地址),但裡面的商品細節欄位可以隨時增加或減少(這次買書,下次買電器),比存摺靈活,比抽屜裡的雜物有條理。
 

第二步:資料處理、清理與異常偵測

1. 資料處理標準流程

💡
步驟: 收集 → 清理 → 分析 → 視覺化
資料處理四步驟:資料收集、資料清理、資料分析與結果視覺化。
資料處理四步驟:資料收集、資料清理、資料分析與結果視覺化。
 

2. 資料來源 (Data Sources)

企業內部數據、使用者互動數據與第三方公開數據來源。
企業內部數據、使用者互動數據與第三方公開數據來源。
1. 企業內部運營數據 (Internal Operational Data)
  • 企業系統紀錄: 來自公司自己的 ERP、CRM 或銷售系統的交易資料、客戶名單等。
  • 感測器/IoT 訊號: 來自工廠設備、智慧建築或車輛等實體世界的回傳資料。
2. 用戶與外部互動數據 (External Interaction Data)
  • 使用者行為紀錄: 來自網站、App 或遊戲的點擊、瀏覽、購買路徑等數據。
  • 網路平台: 來自各大社群媒體(如 Facebook、X)或電商平台的評論、貼文、流量等資料。
3. 第三方與公開數據 (Third-Party & Public Data)
  • 開放資料集: 由政府或組織公開發布的免費資料,例如天氣、人口統計、地圖資訊等。
  • 網路爬蟲: 透過程式自動從外部網站或網路服務抓取資訊的方法,作為數據來源。
 

3. 資料清理 (Data Cleaning) 關鍵任務

一隻濕淋淋的白貓象徵資料清理流程,代表處理缺值、錯值、重複值與雜訊,像清洗髒污一樣讓資料變乾淨。
一隻濕淋淋的白貓象徵資料清理流程,代表處理缺值、錯值、重複值與雜訊,像清洗髒污一樣讓資料變乾淨。
四隻貓示範資料問題:缺值像拼圖少一塊、重複值像鏡子中反覆出現、錯誤值像年齡負數、離群值像一隻彩色鸚鵡站在貓群中,用視覺比喻數據品質問題。
四隻貓示範資料問題:缺值像拼圖少一塊、重複值像鏡子中反覆出現、錯誤值像年齡負數、離群值像一隻彩色鸚鵡站在貓群中,用視覺比喻數據品質問題。
  • 缺值處理 (Missing Values):
    • 說明:處理數據集中缺少值的欄位,避免模型訓練時發生錯誤或偏差。
    • 舉例:客戶名單中,某人沒填「年齡」。你可以選擇刪除此人、用所有人的平均年齡填補、或用迴歸模型預測他可能的年齡來填。
  • 重複值處理 (Duplicates):
    • 說明:找出並移除完全相同的多筆數據紀錄,確保每筆資訊的唯一性。
    • 舉例:你因為網路問題,重複送出了兩次相同的訂單資料,必須移除其中一筆,否則會讓銷售額看起來膨脹一倍。
  • 錯誤值 (Error/Invalid Value):
    • 說明:數據中的值不符合合理或邏輯範圍(如年齡為負數、產品價格標為$10$億)。
    • 舉例:客戶註冊時,年齡欄位輸入了 -5,這明顯是個錯誤,必須修正或移除。
  • 異常值 / 離群值(Outlier Value):
    • 說明:數據點明顯偏離大多數其他數據點,可能是錯誤但也可能代表特殊現象,需謹慎處理。
    • 舉例:你店裡單日銷售額突然飆到平常的十倍。這可能是大單(特殊現象),但也可能是系統計錯了(錯誤),需要用箱型圖Z-score檢查。
 

4. 資料異常偵測類型 (Data Anomaly Types)

貓群裡混入大象代表點異常,一群貓集體做怪動作顯示群體異常,客廳裡穿太空衣的貓象徵情境異常。
貓群裡混入大象代表點異常,一群貓集體做怪動作顯示群體異常,客廳裡穿太空衣的貓象徵情境異常。
  • 點異常 (Point Anomaly):
    • 說明:單一、獨立的資料點與其他大部分數據點顯著不同。
    • 舉例:你的信用卡在國外突然出現一筆高額刷卡,但前後都沒有任何異常交易或登入紀錄,就只有那單獨一筆交易怪怪的。
  • 群體異常 (Collective Anomaly):
    • 說明:單獨看每個數據點都正常,但以序列或群組方式觀察時,整體模式異常。
    • 舉例:你的健身 App 紀錄顯示,你連續兩週每天凌晨 3:00 準時完成 100 次仰臥起坐。單獨一次仰臥起坐很正常,但這種固定的、非人類作息的連續模式合起來看,就很可疑(可能是 App 故障或被盜用)。
  • 情境異常 (Contextual Anomaly):
    • 說明:數據點在一般情況下正常,但在特定背景或時間範圍內就變得異常。
    • 舉例:伺服器在凌晨三點流量暴增是異常;但聖誕節當天流量暴增卻是正常的。判斷異常需考慮「情境」。
 

第三步:數據轉換與特徵工程

這是將原始資料變成 AI 模型「懂的語言」的過程。

1. 資料轉換與整理核心概念

可愛貓咪示範 ETL 流程:從混亂資料抓取原始資訊、在大鍋中清洗轉換格式,最後把整理好的資料放進資料倉儲的新家。
可愛貓咪示範 ETL 流程:從混亂資料抓取原始資訊、在大鍋中清洗轉換格式,最後把整理好的資料放進資料倉儲的新家。
  • ETL (Extract, Transform, Load): 傳統資料整合流程。
    • 1️⃣ Extract(提取): 從資料來源擷取原始數據。
    • 2️⃣ Transform(轉換): 進行清洗、整合與格式轉換。
    • 3️⃣ Load(加載): 將處理後的資料載入目標系統(如資料倉儲)。
 
 
這張圖說明機器學習前的三大步驟:先把雜亂資料提煉成有意義的特徵,再貼上正確標籤,最後刪除噪音讓模型更聚焦。
這張圖說明機器學習前的三大步驟:先把雜亂資料提煉成有意義的特徵,再貼上正確標籤,最後刪除噪音讓模型更聚焦。
  • 特徵工程 (Feature Engineering):
    • 說明:運用領域知識,從原始數據中創造或轉換出新的、對模型更有判斷力的特徵。
    • 舉例:從原始欄位「出生日期」轉換出新的特徵「客戶年齡」或「是否為本月壽星」,讓預測模型更容易學習。
  • 數據標註 (Data Labeling):
    • 說明:為輸入資料(圖片、文字等)手動貼上正確的「答案」或「標籤」,以訓練監督式學習模型。
    • 舉例:你把 1000 張攝影作品給 AI 訓練,必須手動告訴 AI 每一張圖是「室內」還是「戶外」攝影,AI 才知道要學什麼。
  • 數據縮減 (Data Reduction):
    • 說明:減少資料集的規模,例如透過刪除不重要的特徵(特徵選擇)或合併特徵(降維)。
    • 舉例:你的客戶資料有 300 個欄位,但你只挑出年齡、性別、消費總額這 3 個欄位來訓練模型,以加快速度和避免過度複雜。
 

2. 數值型資料轉換技術

這張圖示範資料前處理方式:用正規化讓不同尺度的數值變得可比較,用離散化把連續數據分群,讓模型更容易理解。
這張圖示範資料前處理方式:用正規化讓不同尺度的數值變得可比較,用離散化把連續數據分群,讓模型更容易理解。
  • 標準化 (Standardization, Z-score)
    • 說明:將數據轉換成平均數為 0、標準差為 1 的分佈,適用於多個特徵尺度差異大的情況。
    • 舉例:就像把所有學生的考試成績換算成 Z 分數,這樣一個考 95 分的學生,無論他的科目的滿分是 100 還是 1000,都能用同一把尺衡量。
  • 正規化 (Normalization, Min-Max scaling)
    • 說明:將所有數據線性縮放到一個固定範圍內,通常是 [0, 1],適用於要求固定範圍的場景。
    • 舉例:將客戶的所有消費金額都縮放到 0 到 100 之間,讓模型知道「100」是消費最高的,而不是一個巨大的原始金額。
  • 離散化 (Discretization / Binning)
    • 說明:將連續的數值變數劃分成有限的區間或類別。
    • 舉例:將客戶的「年齡」欄位,從連續數字轉換成「青年 (0-30)」、「中年 (31-59)」、「老年 (60+)」這三個離散的類別。
💡
標準化就像氣象局說:「今天比歷史平均溫度熱 3 度。
  • 它只關心你比平均數 (0) 多出或少多少,不設上下限
正規化就像你手機螢幕上的亮度條:「亮度從 0% 調到 100%。
  • 它強制把你的數據塞進 0 到 100% 的固定範圍內,讓它們有明確的邊界
 

3. 類別資料編碼 (Categorical Encoding)

將非數值類別特徵轉換成數值格式:
示範類別資料編碼差異的圖表,包含顏色的 One-hot Encoding 轉換向量,以及尺寸由小到大的 Label Encoding 順序編碼。
示範類別資料編碼差異的圖表,包含顏色的 One-hot Encoding 轉換向量,以及尺寸由小到大的 Label Encoding 順序編碼。
  • One-hot encoding
    • 說明:將一個類別特徵轉換成多個二元 (0 或 1) 特徵,避免模型誤判類別間有數量關係。
    • 舉例:想像你要告訴 AI 一件衣服的顏色(紅、黃、藍)。我們將「紅」轉成三個獨立的投票紅=1, 黃=0, 藍=0。這樣 AI 就只知道「紅色的票開了」,不會誤以為「藍色 (3)」比「紅色 (1)」更好或更大
  • Label encoding
    • 說明:將類別特徵轉換成連續的整數數值,通常適用於類別本身具有順序關係(如:大、中、小)。
    • 舉例:想像你要告訴 AI 一個包裹的尺寸(小、中、大)。我們直接編碼成 小=0, 中=1, 大=2。這樣 AI 看到「2」時,就知道它比「0」或「1」大,完美保留了尺寸的順序關係。
 

第四步:資料儲存與治理架構

資料儲存的四種方式:資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh)
資料儲存的四種方式:資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh)

1. 資料儲存與管理架構

  • 資料倉儲 (Data Warehouse)
    • 說明:集中式的儲存庫,用於儲存經過清理和結構化的歷史資料,主要目的在於分析和報表。
    • 舉例:公司所有過去十年財務報表銷售數據,都整理得乾乾淨淨、有規有矩地放在這裡。
  • 資料湖 (Data Lake)
    • 說明:儲存所有原始、未經處理的結構化與非結構化數據,具有高度靈活性,適合 AI 訓練。
    • 舉例:你把所有未剪輯的原始影片素材、客戶的語音留言、網站點擊日誌等,一股腦地丟進這個大湖裡,等需要時再撈出來處理。
  • 數據中台 (Data Middle Platform)
    • 說明:建構一個共享的數據服務層,將底層數據標準化,讓各業務部門能快速調用。
    • 舉例:就像建立一個中央廚房,底層數據是食材,中台把食材處理成標準化的半成品,各部門(行銷、業務)可以直接拿去用,不必每次都從頭處理食材。
  • 數據網格 (Data Mesh)
    • 說明:去中心化的數據架構,將數據所有權和管理責任分散給各業務領域團隊,將數據視為一種「產品」。
    • 舉例:行銷部門自己管行銷數據財務部門自己管財務數據,各部門像獨立的數據小商店,提供標準化的數據產品給其他部門使用。
  • 資料融合 (Data Integration)
    • 說明:將來自不同來源、格式各異的資料合併、協調一致,形成一個統一的視角。
    • 舉例:將你的攝影作品清單(存在 Excel)、客戶聯絡資料(存在 CRM)、和客戶在社群上的留言(存在社群平台),全部統合成一個完整的客戶畫像。
  • 向量資料庫 (Vector Database)
    • 說明:專門用來儲存和快速檢索高維向量(AI 模型將文字、圖片轉換的數組),是語意搜尋的關鍵。
    • 舉例:你問 AI 機器人一個問題,機器人會把問題轉成一組向量,然後在向量資料庫裡**瞬間找到語意最相近的「知識點」**來回答你。
 

2. 資料管理與治理 (Governance)

四組貓咪示意圖展示數據治理流程:主資料管理、數據目錄、數據編排與資料庫索引優化。
四組貓咪示意圖展示數據治理流程:主資料管理、數據目錄、數據編排與資料庫索引優化。
  • 主資料管理 (MDM)
    • 管理企業內最關鍵的數據(如客戶、產品、供應商),確保它們在所有系統中都是唯一、準確、一致的。
  • 數據目錄 (Data Catalog)
    • 一個組織內所有數據的「圖書館目錄」,記錄了資料在哪裡、誰擁有、包含什麼內容(元數據)。
  • 數據編排 (Data Orchestration)
    • 自動化、監控和協調多個複雜的資料處理步驟(Pipeline),確保它們按照正確的順序執行。
  • 資料庫索引優化
    • 說明:在資料庫的欄位上建立索引,就像書本的目錄一樣,可以大幅加快查詢(讀取)的速度。
 

第五步:數據統計與推論概念

這是理解數據特徵和 AI 模型評估的數學語言。
 
貓貓描述三種集中趨勢 (Central Tendency):平均數 (Mean)、中位數 (Median)、眾數 (Mode)
貓貓描述三種集中趨勢 (Central Tendency):平均數 (Mean)、中位數 (Median)、眾數 (Mode)

1. 集中趨勢 (Central Tendency)

  • 平均數 (Mean)
    • 說明:所有數據加總後除以資料個數,計算簡單、概念直觀,適合用來表示整體情況。
    • 缺點:極易受極端值(Outliers)影響,失去代表性。
    • 舉例:你這間來客的「平均消費金額」,最能直觀告訴你客群的消費能力。
  • 中位數 (Median)
    • 說明:將數據排序後,位於最中間的那個數值,特別適用於有極端值(異常值)的情況。
    • 舉例:當你的薪資清單中突然出現一個年薪千萬的高管時,平均數會被拉高,此時中位數更能代表公司「一般」員工的薪資水準
  • 眾數 (Mode)
    • 說明:數據集中出現頻率最高的數值或類別。
    • 舉例:在所有購買你產品的客戶中,最常出現的「居住城市」(例如:新北市),就是眾數。
 
貓貓描述離散程度 (Dispersion):全距 (Range)、四分位距 (IQR)、變異數 (Variance) / 標準差 (Standard Deviation)
貓貓描述離散程度 (Dispersion):全距 (Range)、四分位距 (IQR)、變異數 (Variance) / 標準差 (Standard Deviation)

2. 離散程度 (Dispersion)

  • 全距 (Range)
    • 說明:數據集中最大值減去最小值,衡量數據分佈的總跨度。
    • 舉例:這款產品最高和最低的月銷售量之間的差距
  • 四分位距 (IQR)
    • 說明:衡量數據中間 50% 範圍的分散程度,不受極端值影響,常用於定義箱型圖的異常值。
    • 舉例:把所有交易金額按高低分成四等份,中間 50% 的交易,它們之間的差距有多大。
  • 變異數 (Variance) / 標準差 (Standard Deviation)
    • 說明:衡量所有數據點與平均數之間的平均距離(分散程度),標準差更直觀。
    • 舉例:這間店的每日客流量是否穩定。標準差小,代表每天來的客人數差不多;標準差大,代表客流量起伏不定(假日爆滿,平日冷清)。

3. 統計推論與假設檢定

貓貓出演假設檢定 (Hypothesis Testing)的過程
貓貓出演假設檢定 (Hypothesis Testing)的過程
  • 假設檢定 (Hypothesis Testing)
    • 說明:一種統計方法,用於判斷從樣本中得到的證據是否足夠強大,足以拒絕一個預先設定的「虛無假設」(無效假設)。
    • 舉例:你假設「新的廣告詞對銷售量沒有影響」(虛無假設),然後跑實驗去驗證你的新廣告詞是否真的有效。
  • 顯著水準 α / Type I Error
    • 說明:在虛無假設為真時,你卻錯誤地拒絕它的機率,即「誤報」的風險上限。常見值為 0.05(5%)。
    • 舉例:你錯判新廣告詞「有效」,但實際上它根本沒用(把沒問題的當成有問題),你願意承擔這個錯誤判斷的機率。
  • 檢定力 (Power) / Type II Error
    • 說明:檢定力是正確地拒絕錯誤虛無假設的機率;Type II Error(β 錯誤)是錯誤地未拒絕虛無假設的機率(漏報)。
    • 舉例:新廣告詞「真的有效」,但你卻判斷它「無效」而錯失機會(漏掉真正有效的),這是你最不想犯的錯誤。
  • p 值 (p-value)
    • 說明:在虛無假設成立的前提下,觀察到目前樣本結果(或更極端結果)的機率。若 p < α,則拒絕虛無假設。
    • 舉例:如果 p 值很小,例如 p=0.01,代表「假設新廣告詞無效」的條件下,你看到現在這個「廣告詞有效的結果」的機率只有 1%,因此你應該拒絕這個「新廣告詞無效」的假設
 

4. 常用統計檢定類型

貓貓使用t 檢定 (t-test)、Z 檢定 (Z-test)、卡方檢定 (Chi-square test)、ANOVA (變異數分析)
貓貓使用t 檢定 (t-test)、Z 檢定 (Z-test)、卡方檢定 (Chi-square test)、ANOVA (變異數分析)
  • t 檢定 (t-test)
    • 說明:用於比較兩個群體的平均數之間是否有顯著差異,適用於小樣本或母體標準差未知時。
    • 舉例:比較使用舊網站版本的客戶平均停留時間,與使用新網站版本的客戶平均停留時間是否有差異。
  • Z 檢定 (Z-test)
    • 說明:用於檢定平均數差異,通常適用於大樣本 ($n>30$) 或母體標準差已知時。
    • 舉例:你對數十萬名客戶進行大規模調查,想知道這次的滿意度分數是否顯著高於歷史平均。
  • 卡方檢定 (Chi-square test)
    • 說明:用於檢定兩個或多個類別變數之間是否相互獨立(不相關)。
    • 舉例:檢定「客戶居住的城市」(類別)和「是否購買某項產品」(類別)這兩個變數之間是否有關聯。
  • ANOVA (變異數分析)
    • 說明:用於同時比較三組或三組以上群體的平均數是否有顯著差異。
    • 舉例:比較你三個不同的廣告活動(A組、B組、C組),它們所帶來的平均點擊率是否有顯著不同。

5. 分布與抽樣

常態分佈 (Normal Distribution)貓貓蟲
常態分佈 (Normal Distribution)貓貓蟲
偏態分佈 (Skewness Distribution)
偏態分佈 (Skewness Distribution)
  • 常態分佈 (Normal Distribution)
    • 說明:一種最常見的機率分佈,分佈圖形呈現左右對稱的鐘形。
    • 舉例:大多數人的身高、智商、考試成績等,都會呈現這種分佈:中間最多,兩邊很少。
  • 偏態分佈 (Skewness Distribution)
    • 說明:衡量數據分佈左右不對稱的程度。正偏(右偏)代表尾巴在右邊,負偏(左偏)代表尾巴在左邊。
    • 舉例:如果你公司的產品價格分佈是右偏,代表大部分產品的價格都較低,但極少數高階產品價格非常高(尾巴被高價產品拉長)。
  • 峰度 (Kurtosis)
    • 說明:衡量數據分佈的集中程度和尾部厚度(極端值多寡)。高峰度代表數據集中,且尾部厚。
    • 舉例:這款遊戲的玩家在線時間非常集中在某個數字(例如 2 小時),但偶爾會有玩非常久的核心玩家(尾部厚)。
  • 抽樣與母體 (Sample & Population)
    • 說明:母體 (Population) 是所有研究對象的總和;樣本 (Sample) 是從母體中選取出來進行實際測量的一小部分。
    • 舉例:台灣所有大學生母體,但你只訪問了其中 100 位學生,這 100 位就是樣本
  • 抽樣誤差 (Sampling Error):
    • 說明:由於只觀察樣本而不是整個母體,導致樣本統計結果與真實母體參數之間的差異。
    • 舉例:你調查的 100 位顧客平均滿意度是 8 分,但實際上所有顧客的平均滿意度是 7.5 分,這個 0.5 的差距就是抽樣誤差。
 

第六步:分析類型與視覺化

四種資料分析的類型 (Analytics Types):敘述性分析 (Descriptive)、診斷性分析 (Diagnostic)、規範性分析 (Prescriptive)
四種資料分析的類型 (Analytics Types):敘述性分析 (Descriptive)、診斷性分析 (Diagnostic)、規範性分析 (Prescriptive)

1. 分析類型 (Analytics Types)

  • 敘述性分析 (Descriptive)
    • 說明:總結和描述過去發生的數據情況,回答「發生了什麼?」。
    • 舉例:這款商品上架至今的總銷售量是多少?客戶的平均年齡是多少?
  • 診斷性分析 (Diagnostic)
    • 說明:深入挖掘數據,找出導致特定結果的根本原因,回答「為什麼會發生?」。
    • 舉例:為什麼這個月的 App 活躍用戶下降了 15%? 經過分析後,發現是因為上週的系統更新導致某個核心功能無法使用
  • 預測性分析 (Predictive)
    • 說明:使用統計模型或機器學習來預測未來可能發生的結果,回答「未來可能發生什麼?
    • 舉例:根據過去的數據,預測下個月的新用戶註冊數量會是多少?預測某個客戶流失的機率有多高?
  • 規範性分析 (Prescriptive)
    • 說明:在預測未來的基礎上,進一步建議最佳的行動方案,回答「我們應該怎麼做?」。
    • 舉例:系統建議:「為了最大化點擊率,你應該將這篇廣告在週二早上 10 點發佈,並對特定年齡層用戶投放。」
 

2. 資料視覺化與降維

四種視覺化圖表:長條圖 (Bar Chart)、折線圖 (Line Chart)、散佈圖 (Scatter Plot)、箱型圖 (Boxplot)
四種視覺化圖表:長條圖 (Bar Chart)、折線圖 (Line Chart)、散佈圖 (Scatter Plot)、箱型圖 (Boxplot)
  • 圖表:
    • 長條圖 (Bar Chart)
      • 說明:用於比較不同類別的數量、頻率或比例。
      • 舉例:比較「台北、台中、台南」三個地區的銷售總額
    • 折線圖 (Line Chart)
      • 說明:用於顯示數據隨時間或其他連續變數的變化趨勢。
      • 舉例:顯示你公司過去一年每月營收變化趨勢
    • 散佈圖 (Scatter Plot)
      • 說明:用於顯示兩個數值變數之間的關係、相關性或分佈
      • 舉例:觀察「客戶年齡」和「平均消費金額」之間是否有關係。
    • 箱型圖 (Boxplot)
      • 說明:以四分位數顯示數據的分佈、集中趨勢、離散程度和離群值
      • 舉例:用它來快速檢查所有產品的評論星級,是否有特別高或特別低的異常評論。
 
高維降維方法:t-SNE / UMAP、LDA (線性判別分析)、MDS / Isomap
高維降維方法:t-SNE / UMAP、LDA (線性判別分析)、MDS / Isomap
  • 高維降維方法 (用於視覺化)
    • t-SNE / UMAP
      • 說明:非線性降維技術,能將高維數據降到 2D 或 3D 進行視覺化,尤其擅長保留鄰近關係,看群聚分布
      • 舉例:將客戶的上百個行為特徵降維成 2D 圖表,這樣你就可以直接用肉眼看到客戶被 AI 分成了「高價位買家」和「折扣追逐者」兩群。
    • LDA (線性判別分析)
      • 說明:有監督式的降維方法,目的是最大化不同類別之間的距離,以利於分類。
      • 舉例:你已經知道客戶分成了「會流失」和「不會流失」兩類,用 LDA 降維是為了讓這兩類客戶在圖上分得越開越好
    • MDS / Isomap
      • 說明:降維方法,試圖在低維度空間中保持數據點之間的距離關係
      • 舉例:將一組地理距離資料降維到 2D 平面,保持城市與城市之間原始的距離比例
       
  • 視覺化工具: Excel、Tableau、Power BI、Python (Matplotlib, Seaborn)
    • 說明:用於創建圖表和儀表板,將數據洞察轉化為易於理解的視覺形式的軟體或函式庫。
    • 舉例:你使用 Tableau 製作一個即時更新的客戶儀表板,隨時監控客戶的行為趨勢。
 

第七步:資料隱私與安全底線

1. 隱私保護與法規

  • 隱私原則:
    • 說明:資料收集、儲存、使用必須遵循的倫理與法律規範,確保不濫用個人資訊。
    • 舉例:企業只能收集「完成交易」所需最少的客戶資訊,且不能把客戶電話用於非交易目的的廣告
  • 國際法規:
    • 說明:規範企業如何處理個人資料的法律,違規將面臨巨額罰款。
    • 舉例:GDPR(歐盟)賦予用戶「被遺忘權」;台灣個資法規範企業必須告知客戶資料會被用在哪裡。
數據隱私技術措施:去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning)
數據隱私技術措施:去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning)

2. 數據隱私技術措施

  • 去識別化/匿名化
    • 說明:移除或修改個人識別資訊 (PII),使資料無法追溯到特定個體。
    • 舉例:你將客戶名單中的「姓名、電話」欄位全部刪除或替換成一個隨機代號,這樣即使資料外洩,也沒人知道是哪個客戶
  • 加密 (Encryption)
    • 說明:將資料轉換成無法讀取的亂碼格式,只有擁有金鑰才能解密。
    • 舉例:你把客戶的重要交易紀錄存到雲端資料庫時,必須對它進行加密保護,這樣即使駭客拿到檔案,看到的也只是一堆亂碼。
  • 差分隱私 (Differential Privacy)
    • 說明:在數據集中故意加入數學雜訊,讓單一資料點被隱藏,但整體統計趨勢不變。
    • 舉例:你問大家是否贊成某個政策,為了保護個人意見,你在每個人的回答中隨機加入一點點「是」或「否」的雜訊,總體統計結果仍準確,但無法確定任何一個人的真實答案。
  • 聯邦學習 (Federated Learning)
    • 說明:將模型訓練的過程分散到多個用戶的本地設備上,只有模型參數(而不是原始數據)會被傳回中心伺服器。
    • 舉例:你手機的輸入法預測不斷學習你的打字習慣,但你的打字內容永遠不會離開你的手機,只會將學習到的「規律」傳回雲端。
 
貓貓重點回顧
貓貓重點回顧
 
iPAS AI︱機器學習全景圖:從演算法圖鑑、訓練優化到 MLOps 維運iPAS AI︱AI 是什麼?從弱 AI、AlphaGo 到 EU AI 法案
Loading...
煎餃沾醬
煎餃沾醬

一顆外皮酥脆、內餡熱騰騰的煎餃,在這裡把生活、技術與靈感通通拿來調味。

公告
這裡還在慢慢成形。
煎餃正在為這個小實驗室調整味道、整理筆記、加熱想法。 版面與內容都會逐步完善,感謝你的耐心等待。
2025煎餃沾醬.

煎餃的調味實驗室 | 一顆外皮酥脆、內餡熱騰騰的煎餃,在這裡把生活、技術與靈感通通拿來調味。

Powered byNotionNext 4.9.2.