L112︱別讓 AI 吃垃圾！一次搞懂資料清洗、特徵工程與統計

type

status

date

slug

summary

前言

這篇文章最初，是我在準備 iPAS AI 規劃師初級 時，為了讓自己不要迷失在名詞裡而整理的筆記。我依照官方學習指引科目一（L112）的結構重新整理內容，結合第四次初級考試的實際出題重點，並加入圖解與生活化說明，希望讓備考的人能快速抓到重點，也讓第一次接觸 AI 的讀者，不必先懂技術，就能先看懂全貌。

📝 更新日誌 (Changelog)

2025.12.18｜v2.0

新增內容：強化特徵工程、假設檢定圖文內容。

全文優化：重組段落並優化文字結構，提升易讀性。

❓

核心思考：為什麼 AI 這麼聰明，我們還需要學資料分析？

其實 AI 就像一位頂級大廚，而資料就是食材。

如果你給大廚發霉的麵粉或過期的牛奶（垃圾數據），再厲害的大廚也做不出好吃的蛋糕。

這就是 AI 領域最著名的鐵律：「Garbage In, Garbage Out」 (垃圾進，垃圾出)。

第一步：迷思破解——為什麼收集了一堆資料，AI 卻還是學不會？

1. 數據的宇宙：大數據 4V 特性

大數據的 4V 特性：數據量（Volume）、速度（Velocity）、多樣性（Variety）、價值（Value）以貓咪插圖呈現。

數量 (Volume)

資料規模龐大。
舉例：全球每天新增數億張照片或影片；單一智慧工廠每分鐘產生數 TB 的感測器數據。

速度 (Velocity)

資料產生與處理速度快。
舉例：Google 地圖或即時導航 App 的路況更新，必須每幾秒鐘就分析數百萬輛汽車的回傳數據；或是短影音平台根據你觀看時間的微小變化，即時推送下一個影片。

多樣性 (Variety)： 包含各種格式。

你的手機每天生成的數據：(1) 聯絡人清單 (結構化) + (2) 你拍的照片/短片 (非結構化) + (3) App 的設定檔或網頁的快取 (半結構化)。

價值 (Value)

數據背後蘊藏的商業價值。
影音串流平台（如 Netflix 或 YouTube）：從數十億次的觀看紀錄中，精準預測你接下來會點擊哪部影片，讓你持續「黏」在平台上，願意續訂。

2. 資料的「長相」：資料型態分類

三隻貓咪用不同方式呈現資料類型：透明盒中代表結構化資料、掛滿標籤代表半結構化資料、從牛奶灘冒出的貓象徵非結構化資料。

結構化資料 (Structured Data)

關聯式資料庫、欄位明確、易於統計（如 SQL, CSV）。
就像銀行存摺或身份證。它的格式是「固定死」的，電腦一掃描就知道哪裡是「姓名」、哪裡是「餘額」。因為欄位規矩，所以計算總數或平均數非常快。

非結構化資料 (Unstructured Data)

影像、文字、語音等，需要 AI 轉換特徵。
就像你家抽屜裡塞滿的舊照片、隨手寫的便條紙或錄音檔。電腦無法直接用 Excel 的方式去計算它們。你需要靠 AI（例如：人臉辨識或語音轉文字）先幫它「看懂」或「聽懂」，把內容轉成數字後才能分析。

半結構化資料 (Semi-structured Data)

JSON、XML、YAML，有欄位但格式不固定。
就像網購的電子訂單。雖然有固定的標籤（例如：訂單編號、收件地址），但裡面的商品細節欄位可以隨時增加或減少（這次買書，下次買電器），比存摺靈活，比抽屜裡的雜物有條理。

第二步：實戰難題——遇到「髒資料」該怎麼辦？

📌

情境兩難：缺值的陷阱

想像你手上有 1000 筆客戶資料，但有 300 人沒填寫「年齡」。

選項 A：把這 300 人全部刪掉？ 👉 樣本數瞬間少 30%，資料不足怎麼辦？

選項 B：全部填 0 歲？ 👉 模型會以為這些人是嬰兒，訓練出一堆錯誤結論。

身為 AI 規劃師，你該怎麼選？ (答案在下方「缺值處理」)

1. 資料處理標準流程

💡

步驟：收集 (Collect) → 清理 (Clean) → 分析 (Analyze) → 視覺化 (Visualize)

2. 資料來源 (Data Sources)

1. 企業內部運營數據 (Internal Operational Data)

企業系統紀錄： 來自公司自己的 ERP、CRM 或銷售系統的交易資料、客戶名單等。

感測器/IoT 訊號： 來自工廠設備、智慧建築或車輛等實體世界的回傳資料。

2. 用戶與外部互動數據 (External Interaction Data)

使用者行為紀錄： 來自網站、App 或遊戲的點擊、瀏覽、購買路徑等數據。

網路平台： 來自各大社群媒體（如 Facebook、X）或電商平台的評論、貼文、流量等資料。

3. 第三方與公開數據 (Third-Party & Public Data)

開放資料集： 由政府或組織公開發布的免費資料，例如天氣、人口統計、地圖資訊等。

網路爬蟲： 透過程式自動從外部網站或網路服務抓取資訊的方法，作為數據來源。

3. 資料清理 (Data Cleaning) 關鍵任務

**一隻濕淋淋的白貓象徵資料清理流程，代表處理缺值、錯值、重複值與雜訊，像清洗髒污一樣讓資料變乾淨。**

四隻貓示範資料問題：缺值像拼圖少一塊、重複值像鏡子中反覆出現、錯誤值像年齡負數、離群值像一隻彩色鸚鵡站在貓群中，用視覺比喻數據品質問題。

缺值處理 (Missing Values)：

說明：資料量夠大時用，處理數據集中缺少值的欄位，避免模型訓練時發生錯誤或偏差。
舉例：客戶名單中，某人沒填「年齡」。你可以選擇刪除此人、用所有人的平均年齡填補、或用迴歸模型預測他可能的年齡來填。

重複值處理 (Duplicates)：

說明：找出並移除完全相同的多筆數據紀錄，確保每筆資訊的唯一性。
舉例：你因為網路問題，重複送出了兩次相同的訂單資料，必須移除其中一筆，避免業績虛胖。

錯誤值 (Error/Invalid Value)：

說明：數據中的值不符合合理或邏輯範圍（如年齡為負數、產品價格標為$10$億）。
舉例：客戶註冊時，年齡欄位輸入了 -5，這明顯是個錯誤，必須修正或移除。

異常值 / 離群值（Outlier Value）：

說明：數據點明顯偏離大多數其他數據點，可能是錯誤但也可能代表特殊現象，需謹慎處理。
舉例：你店裡單日銷售額突然飆到平常的十倍。這可能是大單（特殊現象），但也可能是系統計錯了（錯誤），需要用箱型圖或Z-score檢查。

4. 資料異常偵測類型 (Data Anomaly Types)

貓群裡混入大象代表點異常，一群貓集體做怪動作顯示群體異常，客廳裡穿太空衣的貓象徵情境異常。

點異常 (Point Anomaly)：

說明：單一、獨立的資料點與其他大部分數據點顯著不同。
舉例：你的信用卡在國外突然出現一筆高額刷卡，但前後都沒有任何異常交易或登入紀錄，就只有那單獨一筆交易怪怪的。

群體異常 (Collective Anomaly)：

說明：單獨看每個數據點都正常，但以序列或群組方式觀察時，整體模式異常。
舉例：你的健身 App 紀錄顯示，你連續兩週每天凌晨 3:00 準時完成 100 次仰臥起坐。單獨一次仰臥起坐很正常，但這種固定的、非人類作息的連續模式合起來看，就很可疑（可能是 App 故障或被盜用）。

情境異常 (Contextual Anomaly)：

說明：數據點在一般情況下正常，但在特定背景或時間範圍內就變得異常。
舉例：伺服器在凌晨三點流量暴增是異常；但聖誕節當天流量暴增卻是正常的。判斷異常需考慮「情境」。

第三步：翻譯工程——如何讓 AI 看懂「顏色」與「文字」？

這是將原始資料變成 AI 模型「懂的語言」的過程。

📌

情境兩難：AI 看不懂「12/25」？

你想預測遊樂園人數，資料只有「2023/12/25」這個日期。

丟數字給 AI：它只看到 20231225 這串數字很大，看不懂規律。

人類的視角：你看到的是 「聖誕節」+「週末」 👉 人潮爆炸！

特徵工程：就是把「日期數字」翻譯成「節日意義」的過程。

1. 特徵工程的本質：翻譯官的藝術

特徵工程 (Feature Engineering) 的本質只有一件事：把「現實世界」翻譯成「模型看得懂、用得好的訊號」。

💡

模型表現不好，往回打的第一個地方，幾乎永遠是特徵工程。因為一個好的特徵，常常不是資料庫裡原本就有的欄位。

特徵工程主要包含三大支柱，分別代表「減法」、「變形」與「加法」的藝術：

特徵選擇如只取最愛羽毛的減法藝術；特徵轉換似液體貓適應容器的變形藝術；特徵交叉則是兩貓合作造橋，組合出新價值的加法藝術。

監督式如網購比價，根據目標（價格）挑選最佳特徵；非監督式如整理購物車，自動發現並剔除重複的同款特徵。

① 特徵選擇 (Feature Selection) —— 減法的藝術

概念：不是資料越多越好，問自己「哪些資訊，值得拿來參考？」，刪除不重要或重複的特徵。
監督式特徵選擇 (Supervised)：根據「過去結果」來決定。

邏輯：「根據過去有沒有成功，來決定哪些資訊以後要繼續看。」

非監督式特徵選擇 (Unsupervised)：不看結果，只看「特徵本身」。

邏輯：「這些特徵彼此很像、很重複（如體重 kg 和體重 lb），我先刪一些。」

② 特徵轉換 (Feature Transformation) —— 變形的藝術 (Meaning)

概念：原始資料往往不夠直觀，需要轉換出「意義」。
舉例：資料庫裡有「出生日期」，但對預測消費習慣來說，「年齡」或「是否為本月壽星」才是更有意義的特徵。

③ 特徵交叉 (Feature Interaction) —— 加法的藝術 (Context)

概念：有些訊息，單一特徵根本不存在，是「一起出現才成立」。
舉例：單看「下午」沒什麼特別，單看「假日」也還好。但當「假日」+「下午」交叉在一起，可能就代表了「逛街高峰」，這對預測人流至關重要。

2. 常見的資料前處理技術

貓咪演繹資料預處理：ETL像打掃洗衣，將資料清洗歸位；數據標註如貼標籤分類獵物與敵人；數據縮減則是替長毛貓剃毛，去除雜訊以突顯核心特徵。

ETL (Extract, Transform, Load)： 傳統資料整合流程。

1️⃣ Extract（提取）： 從資料來源擷取原始數據。
2️⃣ Transform（轉換）： 進行清洗、整合與格式轉換。
3️⃣ Load（加載）： 將處理後的資料載入目標系統（如資料倉儲）。

數據標註 (Data Labeling)：

說明：為輸入資料（圖片、文字等）手動貼上正確的「答案」或「標籤」，以訓練監督式學習模型。
舉例：你把 1000 張攝影作品給 AI 訓練，必須手動告訴 AI 每一張圖是「室內」還是「戶外」攝影，AI 才知道要學什麼。

數據縮減 (Data Reduction)：

說明：減少資料集的規模，例如透過刪除不重要的特徵（特徵選擇）或合併特徵（降維）。
舉例：你的客戶資料有 300 個欄位，但你只挑出年齡、性別、消費總額這 3 個欄位來訓練模型，以加快速度和避免過度複雜。

3. 數值型資料轉換 (特徵轉換)

標準化讓貓穿制服以 0 為基準比較；正規化將大貓小貓通通塞進 0 到 1 的盒子；離散化則不看精確數字，直接依大小分隊裝箱。

標準化 (Standardization, Z-score)

說明：把「原始大小」轉成「相對位置」。將數據轉換成平均數為 0、標準差為 1 的分佈，適用於多個特徵尺度差異大的情況。
情境：小明考了 80 分（滿分 100），小美考了 9 分（滿分 10）。誰考得比較好？
解析：直接比分數不公平（80 > 9），因為滿分不同。Z-score 幫你把它們拉到同一個標準上比較（例如算出小美其實在全班排名前 1%，比小明更強）。

正規化 (Normalization, Min-Max scaling)

說明：將所有數據線性縮放到一個固定範圍內，通常是 [0, 1]，適用於要求固定範圍的場景。
舉例：將客戶的所有消費金額都縮放到 0 到 100 之間，讓模型知道「100」是消費最高的，而不是一個巨大的原始金額。

離散化 (Discretization / Binning)

說明：將連續的數值變數劃分成有限的區間或類別。
舉例：將客戶的「年齡」欄位，從連續數字轉換成「青年 (0-30)」、「中年 (31-59)」、「老年 (60+)」這三個離散的類別。

4. 類別資料編碼 (解決顏色的誤會)

📌

情境兩難：顏色的誤會

你的資料裡有衣服顏色：「紅、黃、藍」。

如果直接把原本的文字變成數字：紅=1, 黃=2, 藍=3。

AI 數學很好，它會認為 「藍色 (3) 比紅色 (1) 大」，甚至覺得 「紅(1) + 黃(2) = 藍(3)」。

這顯然不合理！該怎麼告訴 AI 它們只是不同顏色，沒有大小之分？ (答案在下方「類別編碼」)

將非數值類別特徵轉換成數值格式：

示範類別資料編碼差異的圖表，包含顏色的 One-hot Encoding 轉換向量，以及尺寸由小到大的 Label Encoding 順序編碼。

One-hot encoding

說明：將一個類別特徵轉換成多個二元 (0 或 1) 特徵，避免模型誤判類別間有數量關係。
舉例：想像你要告訴 AI 一件衣服的顏色（紅、黃、藍）。我們將「紅」轉成三個獨立的投票：紅=1, 黃=0, 藍=0。這樣 AI 就只知道「紅色的票開了」，不會誤以為「藍色 (3)」比「紅色 (1)」更好或更大。

Label encoding

說明：將類別特徵轉換成連續的整數數值，通常適用於類別本身具有順序關係（如：大、中、小）。
舉例：想像你要告訴 AI 一個包裹的尺寸（小、中、大）。我們直接編碼成 小=0, 中=1, 大=2。這樣 AI 看到「2」時，就知道它比「0」或「1」大，完美保留了尺寸的順序關係。

第四步：倉儲策略——資料該冰冰箱還是丟倉庫？

資料儲存的四種方式：資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh) — 資料儲存的四種方式：**資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh)**

1. 資料儲存架構：怎麼存才好用？

① 資料倉儲 (Data Warehouse) —— 「整齊的圖書館」

優勢：資料經過清理與結構化，格式統一，查詢速度快。

情境：財務部要跑月結報表、老闆要看年度營收（分析用）。

② 資料湖 (Data Lake) —— 「原始的大水庫」

優勢：可存任何格式（影片、日誌）的原始資料，保留細節，成本低。

情境：資料科學家要訓練 AI 模型、挖掘未知的規律（挖掘用）。

③ 數據中台 (Data Middle Platform) —— 「中央廚房」

優勢：將底層數據加工成標準服務 (API)，避免重複造輪子。

情境：行銷、業務、客服都需要「客戶畫像」，由中台統一提供。

④ 數據網格 (Data Mesh) —— 「獨立小商店」

優勢：去中心化，各部門自己管理自己的數據產品，解決中央瓶頸。

情境：跨國大企業，不同產品線業務差異巨大，適合各自管理。

⑤ 向量資料庫 (Vector Database) —— 「語意搜尋引擎」

優勢：儲存高維向量，能找出「語意相近」的內容，而非死板的關鍵字。

情境：RAG 技術、ChatGPT 知識庫、以圖搜圖。

⑥ 資料融合 (Data Integration)

核心：將 CRM + 社群留言 + 官網點擊，拼成完整的「客戶旅程」。

2. 資料治理 (Governance)：怎麼管才不亂？

四組貓咪示意圖展示數據治理流程：主資料管理、數據目錄、數據編排與資料庫索引優化。

① 主資料管理 (MDM)

優勢：建立企業內唯一的**「單一真相來源」 (Single Source of Truth)**，消除數據衝突。

情境：行銷部說客戶 A 住台北，物流部說客戶 A 住高雄。MDM 確保大家看到的地址是一致的。

② 數據目錄 (Data Catalog)

優勢：讓數據可被搜尋 (Discoverable)，就像圖書館的檢索系統，減少員工 80% 找資料的時間。

情境：新來的分析師想找「去年 Q3 銷售數據」，不用到處問人，查目錄就知道存在哪個資料庫。

③ 數據編排 (Data Orchestration)

優勢：自動化管理複雜的工作相依性，確保資料處理流程按順序準時完成。

情境：規定「必須先完成資料清理 (Step A)，才能開始訓練 AI 模型 (Step B)」，編排工具會自動卡控這個順序。

④ 資料庫索引優化 (Indexing)

優勢：像書本目錄一樣，大幅提升查詢速度 (Performance)，減少系統等待時間。

情境：原本要跑 10 分鐘的報表，建立索引後變成 1 秒鐘就跑出來。

第五步：統計裁判——如何確定這不是運氣好？

這是理解數據特徵和 AI 模型評估的數學語言。

📌

情境兩難：是實力還是運氣？

你換了新廣告詞，轉換率從 5% 變成 5.2%。

老闆問：「這是新廣告有效，還是只是剛好這幾天運氣好？」

你敢拍胸脯保證有效嗎？萬一保證了結果下個月跌回去怎麼辦？

這時候你需要「假設檢定」來幫你算機率。

貓咪圖解中心趨勢：左圖平均數顯示蹺蹺板被極端巨貓拉偏；中圖中位數是依序排列並穩坐正中央的貓王；右圖眾數則聚焦於聚光燈下數量最多的橘貓群體。

1. 集中趨勢 (Central Tendency)—— 誰能代表這個群體？

① 平均數 (Mean) —— 「整體水準」

白話文：把大家混在一起算，平均一人多少。

用途：看整體實力（如：班級平均分）。

雷點：極易被極端值拉走（馬斯克走進酒吧，全酒吧的人平均資產瞬間破億）。

② 中位數 (Median) —— 「一般大眾」

白話文：全體排排站，站在最中間的那個人。

用途：看真實行情，不怕極端值干擾（如：薪資中位數才能代表普通員工收入）。

③ 眾數 (Mode) —— 「主流爆款」

白話文：出現最多次的那個。

用途：看熱門趨勢（如：這季賣最好的顏色是「黑色」，黑色就是眾數）。

全距顯示最大與最小貓的差距；四分位距框出中間50%的貓群；標準差則呈現平均貓拉住四散貓咪，表現數據偏離中心的程度。

2. 離散程度 (Dispersion) —— 大家夠不夠團結？

① 全距 (Range) —— 「天花板與地板的距離」

白話文：最強的減去最弱的。

用途：看極限差距（如：這次考試最高分與最低分差了幾分）。

② 四分位距 (IQR) —— 「核心族群的差異」

白話文：去掉頭尾特別強和特別弱的，只看中間 50% 的人差距多大。

用途：排除異類，看主力部隊的穩定度。

③ 標準差 (Standard Deviation) —— 「心情穩不穩定」

白話文：大家是乖乖聚在平均值旁邊（小），還是到處亂跑（大）？

用途：衡量風險與波動。

舉例：兩家店平均每天都賣 100 杯。

A 店：每天都準時賣 90~110 杯 👉 標準差小 (穩)。
B 店：今天賣 10 杯，明天賣 190 杯 👉 標準差大 (狂)。

3. 分布與抽樣：數據的形狀 (Distribution & Sampling)

① 常態分佈 (Normal Distribution)

說明：一種最常見的機率分佈，分佈圖形呈現左右對稱的鐘形。
舉例：大多數人的身高、智商、考試成績等，都會呈現這種分佈：中間最多，兩邊很少。

② 偏態分佈 (Skewness Distribution)

說明：衡量數據左右不對稱的程度。
種類：正偏（右偏，尾巴在右）、負偏（左偏，尾巴在左）。
舉例：公司產品價格通常是右偏（大部分便宜，極少數高價產品把尾巴拉長）。

③ 峰度 (Kurtosis)

說明：衡量數據的集中程度和尾部厚度（極端值多不多）。
特徵：高峰度代表數據很集中（尖），且尾部厚（有極端怪人）。
舉例：遊戲玩家在線時間非常集中在 2 小時，但偶爾有玩超久的狂人。

④ 抽樣與母體 (Sample & Population)

母體 (Population)：所有研究對象的總和（如：台灣所有大學生）。
樣本 (Sample)：被選出來測量的一小部分（如：被訪問的 100 人）。

⑤ 抽樣誤差 (Sampling Error)

說明：因為只看一部分（樣本），導致跟真實情況（母體）之間的落差。
舉例：調查滿意度 8 分，但真實全體只有 7.5 分，這 0.5 就是誤差。

3. 假設檢定 (Hypothesis Testing)：法庭審判的藝術

📌

腦力激盪：為什麼統計學家喜歡「唱反調」？

當你想證明「新廣告有效」時，統計學家不會直接去證明它是對的。

相反地，他們會先假設 「新廣告根本沒效（虛無假設）」，然後試著找出證據來打臉這個假設。

如果你一開始就說「我相信它有效」，你只是在問：「我能不能找到支持我的證據？」

先設定 H0 自認是宇宙中心（無罪推定）；實驗後 P 值極低帶來現實暴擊；證據確鑿只能淚流滿面拒絕 H0，接受自己並不特別的心碎真相。

這就像一場法庭審判：

Step ①：先假設 —— 被告無罪 (建立假設)

我們先假設狀態是「沒差別」、「無效」。
這在統計上稱為 虛無假設 (H0)。
商業情境：先假設新廣告跟舊廣告一樣，根本沒效。

Step ②：找證據 —— 不可能是巧合吧？ (計算 p-value)

我們去計算「如果被告真的無罪，出現這麼多不利證據的機率是多少？」
這個機率就是 p 值 (p-value)。
商業情境：如果廣告真的沒效，那業績突然飆升 20% 的機率，是不是低得離譜？

Step ③：下判決 —— 推翻無罪 (顯著水準)

如果 p 值 < 0.05 (證據顯示巧合的機率低於 5%)。
我們就敢拒絕無罪 (H0)，宣判有罪 (H1，對立假設)。
商業情境：機率太低了，不可能是運氣！所以我敢說新廣告「顯著有效」。

第一格說明「沒拒絕 H0」僅是證據不足，不代表真愛；第二格以畫小丑妝比喻顯著水準 a 是願意承擔自作多情的「容忍度」；第三格定義 P-value 為自作多情的機率，揭示對方其實沒那麼喜歡你的殘酷現實。

⚠️ 判決可能會出錯 (Type I & Type II Error)

法官不是神，判決也可能出錯。我們必須知道自己承擔了什麼風險：

錯誤類型	法庭比喻	商業情境
Type I Error (偽陽性)	冤獄好人被判有罪。	誤報廣告其實沒效，你卻以為有效。 👉 後果：浪費預算
Type II Error (偽陰性)	縱放壞人被判無罪。	漏報廣告其實有效，你卻沒發現。 👉 後果：錯失賺錢商機

4. 決策檢查點：該派哪位檢察官上場？

📌

轉場思考： 懂了審判邏輯（假設檢定）後，下一個問題是：針對不同的案情（資料型態），該派哪一種工具（檢定方法）來算 p-value？

以戀愛煩惱對應四種統計檢定：1. t-test 比較熱戀期前後訊息速度差異（兩組平均）；2. Z-test 判斷「零訊息」是否偏離愛的常態標準；3. 卡方檢定分析「主動與被動」比例是否異常（類別分析）；4. ANOVA 比較「對我 vs 對別人」的態度差異（多組比較）。 — 以戀愛煩惱對應四種統計檢定：1. **t-test** 比較熱戀期前後訊息速度差異（兩組平均）；2. **Z-test** 判斷「零訊息」是否偏離愛的常態標準；3. **卡方檢定** 分析「主動與被動」比例是否異常（類別分析）；4. **ANOVA** 比較「對我 vs 對別人」的態度差異（多組比較）。

你的案情 (資料情境)	關鍵字	推薦工具 (檢察官)
比較「兩組」平均數	A版網站 vs B版網站	t 檢定 (t-test)
比較「三組以上」平均數	廣告 A vs B vs C	ANOVA (變異數分析)
比較「類別」關聯性	住台北的人 vs 買iPhone的人	卡方檢定 (Chi-square)
大樣本 (>30) 比較平均	全國普查	Z 檢定

第六步：視覺溝通——如何讓老闆一眼看懂數據？

📌

情境兩難：老闆看不懂怎麼辦？

你花了一週跑模型，產出一份精美的 Excel 報表，裡面有 10,000 個數字。

選項 ①：直接把檔案丟給老闆？ 👉 他會生氣：「講重點！」

選項 ②：只講結論？ 👉 他會懷疑：「你憑什麼這樣說？」

視覺溝通：就是把「複雜數據」翻譯成「直觀圖表」的過程。

敘述性分析（貓看著搗亂現場，問發生什麼事）；診斷性分析（偵探貓找原因，問為什麼）；預測性分析（法師貓看水晶球，問未來趨勢）；規範性分析（商務貓按執行鈕，給出行動建議）。 — **敘述性分析**（貓看著搗亂現場，問發生什麼事）；**診斷性分析**（偵探貓找原因，問為什麼）；**預測性分析**（法師貓看水晶球，問未來趨勢）；**規範性分析**（商務貓按執行鈕，給出行動建議）。

1. 分析類型 (Analytics Types)

敘述性分析 (Descriptive)

說明：總結和描述過去發生的數據情況，回答「發生了什麼？」。
舉例：這款商品上架至今的總銷售量是多少？；客戶的平均年齡是多少？

診斷性分析 (Diagnostic)

說明：深入挖掘數據，找出導致特定結果的根本原因，回答「為什麼會發生？」。
舉例：為什麼這個月的 App 活躍用戶下降了 15%？ 經過分析後，發現是因為上週的系統更新導致某個核心功能無法使用。

預測性分析 (Predictive)

說明：使用統計模型或機器學習來預測未來可能發生的結果，回答「未來可能發生什麼？」
舉例：根據過去的數據，預測下個月的新用戶註冊數量會是多少？預測某個客戶流失的機率有多高？

規範性分析 (Prescriptive)

說明：在預測未來的基礎上，進一步建議最佳的行動方案，回答「我們應該怎麼做？」。
舉例：系統建議：「為了最大化點擊率，你應該將這篇廣告在週二早上 10 點發佈，並對特定年齡層用戶投放。」

2. 進階視覺化：高維降維 (Dimensionality Reduction)

當資料特徵太多（例如 100 維）畫不出來時，需要用「降維」把它壓扁成 2D 或 3D。

**高維降維方法：t-SNE / UMAP、LDA (線性判別分析)、MDS / Isomap**

① t-SNE / UMAP —— 「看群聚」 (非線性)

說明：擅長保留鄰近關係，把相似的資料聚在一起。

舉例：將客戶的上百個行為特徵壓扁，肉眼就能看到自動分成了「小資族」和「大戶」兩群。

② LDA (線性判別分析) —— 「看分類」 (有監督)

說明：目的是讓不同類別分得越開越好。

舉例：已知客戶有「流失」跟「留存」，LDA 會想辦法畫出一條線，把這兩群人遠遠分開。

③ MDS / Isomap —— 「看距離」

說明：試圖保持數據點之間的原始距離比例。

舉例：把地球儀 (3D) 上的城市壓到地圖 (2D) 上，但盡量保持城市間的相對距離不變。

視覺化工具： Excel、Tableau、Power BI、Python (Matplotlib, Seaborn)

說明：用於創建圖表和儀表板，將數據洞察轉化為易於理解的視覺形式的軟體或函式庫。
舉例：你使用 Tableau 製作一個即時更新的客戶儀表板，隨時監控客戶的行為趨勢。

3. 決策檢查點：圖表該選哪一張？

四種視覺化圖表：長條圖 (Bar Chart)、折線圖 (Line Chart)、散佈圖 (Scatter Plot)、箱型圖 (Boxplot)

你想展示什麼？	推薦圖表	用途舉例
比較數量大小	長條圖 (Bar)	台北 vs 台中營收
觀察時間趨勢	折線圖 (Line)	股價走勢、月營收變化
找兩個變數的關係	散佈圖 (Scatter)	年齡 vs 消費力 (有關嗎？)
找異常值 / 看分佈	箱型圖 (Boxplot)	抓出評分特別低的異常產品

第七步：安全紅線——能力越強，責任越大？

📌

情境兩難：便利 vs. 隱私的拔河

你想開發一個「超精準的購物推薦 AI」，需要用戶的購買紀錄、瀏覽習慣、甚至位置資訊。

收集越多 👉 AI 越準，用戶覺得好用。

收集越多 👉 風險越高，用戶覺得被監控（毛骨悚然）。

隱私技術：就是要在「讓 AI 變聰明」與「保護用戶秘密」之間找到平衡點。

1. 隱私原則與法規

隱私原則：

說明：資料收集、儲存、使用必須遵循的倫理與法律規範，確保不濫用個人資訊。
舉例：企業只能收集「完成交易」所需最少的客戶資訊，且不能把客戶電話用於非交易目的的廣告。

法規規範：

說明：規範企業如何處理個人資料的法律，違規將面臨巨額罰款。
舉例：GDPR（歐盟）賦予用戶「被遺忘權」；台灣個資法規範企業必須告知客戶資料會被用在哪裡。

數據隱私技術措施：去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning) — 數據隱私技術措施：**去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning)**

2. 隱私保護技術

去識別化/匿名化

說明：移除或修改個人識別資訊 (PII)，使資料無法追溯到特定個體。
舉例：你將客戶名單中的「姓名、電話」欄位全部刪除或替換成一個隨機代號，這樣即使資料外洩，也沒人知道是哪個客戶。

加密 (Encryption)

說明：將資料轉換成無法讀取的亂碼格式，只有擁有金鑰才能解密。
舉例：你把客戶的重要交易紀錄存到雲端資料庫時，必須對它進行加密保護，這樣即使駭客拿到檔案，看到的也只是一堆亂碼。

差分隱私 (Differential Privacy)

說明：在數據集中故意加入數學雜訊，讓單一資料點被隱藏，但整體統計趨勢不變。
舉例：你問大家是否贊成某個政策，為了保護個人意見，你在每個人的回答中隨機加入一點點「是」或「否」的雜訊，總體統計結果仍準確，但無法確定任何一個人的真實答案。

聯邦學習 (Federated Learning)

說明：將模型訓練的過程分散到多個用戶的本地設備上，只有模型參數（而不是原始數據）會被傳回中心伺服器。
舉例：你手機的輸入法預測不斷學習你的打字習慣，但你的打字內容永遠不會離開你的手機，只會將學習到的「規律」傳回雲端。

結語

從收集資料、清洗髒值、設計特徵，到用統計檢定驗證假設——你會發現，資料科學家的日常，就是一場與混沌對抗的理性修行。

這段旅程教會我們：

Garbage In，Garbage Out —— 數據品質決定了 AI 能看見什麼樣的世界

特徵工程是翻譯的藝術 —— 把「日期」變成「是否為聖誕節」，才是真正有意義的訊號

統計是理性的盔甲 —— 用 p-value 與假設檢定武裝自己，不再被直覺或運氣牽著鼻子走

視覺化是溝通的語言 —— 一張圖表勝過千言萬語，再精密的分析也要能讓人秒懂

數據讓我們從混亂的世界裡撥雲見日，假設檢定讓我們更清晰地認識真相——即使有時候，客觀世界的答案並不如我們的意。

當 p-value 低到 0.000001％時，再多的自我安慰也擋不住冷酷的數據真相。

但也正是這份理性與嚴謹，讓我們在面對不確定性時，依然能夠保持清醒，做出更好的判斷。

這，就是資料科學最珍貴的價值。

iPAS AI 規劃師初級筆記地圖

完整章節地圖在這裡，每篇對應一個考試主題，點擊標題可直接跳轉，想看哪篇點哪篇 🤤

章節	文章指路
L111	AI 人機協作、可解釋性與治理的真實問題
L112	別讓 AI 吃垃圾！一次搞懂資料清洗、特徵工程與統計
L113	機器學習全景圖：從演算法圖鑑、訓練優化到 MLOps 維運
L114	鑑別式 AI 與生成式 AI：從原理、挑戰到未來趨勢
L121	從 AI 玩家到數位指揮官：No-Code/Low-Code 如何重新定義開發？
L122	生成式 AI 的典範轉移：為什麼 AI Agent 是下一場工作革命？
L123	生成式 AI 導入指南：從策略評估到組織落地與風險治理