type
Post
status
Published
date
Apr 26, 2026
slug
computer-vision-from-pixels-to-ethics
summary
電腦視覺從 1999 年 HOG、SIFT 特徵工程,到 2012 年 AlexNet 開啟 CNN 自學特徵;分類、偵測、分割五種任務各有判準,仰賴人工標註,2024 年 EU AI Act 劃下倫理紅線。
tags
iPAS AI規劃師
電腦視覺
category
AI 技術解析
icon
password
人類看一眼就能分辨貓狗,但對電腦而言,一張照片就像是一幅由數百萬塊馬賽克拼湊而成的巨型壁畫。電腦只知道一坨馬賽克,卻看不懂這些影像數據在真實世界的意義。
為了跨越這道感知落差,科學家耗費半個世紀,試圖讓機器學會「看懂」圖片。
電腦視覺從早期 SIFT、Haar、HOG 等特徵工程方法,走到 2012 年 AlexNet 開啟的深度學習浪潮;分類、偵測、分割等任務各有不同輸出與評估標準,背後則高度依賴人工標註與資料治理。到了 2024 年,EU AI Act 正式生效,也讓電腦視覺不再只是技術問題,而是治理問題。
本文將深度拆解電腦視覺(Computer Vision, CV)的發展脈絡:從早期人類手動設計規則的「特徵工程」,到撕毀說明書、讓機器自學的「CNN 革命」,並進一步剖析現今主流的五大視覺任務與評估判準。你將會發現,機器之所以能精準辨識物體,並非因為它具備人類的意識,而是建立在強大的數學模型與海量的人工標註數據之上。
一、特徵工程時期:人類先替機器決定「該看什麼」(1999-2011)
1. 機器眼中的世界:0 到 255 的亮度值
我們看貓是毛茸茸的可愛生物,機器看到的到底是什麼東西,才會連貓狗都分不出來?
機器其實是個「色盲且大近視」,它看到的不是貓,而是 0 到 255 的亮度值,對彩色影像而言,則通常是 RGB 三個通道共同組成。因為全是數字,人類才需要發明 HOG 或 Haar Cascade 這種「數學濾鏡」,把這些雜亂的數字理出線條。
CNN 革命之前,機器就像一個剛出生的嬰兒,如果你不跟它說「貓耳朵是三角形的」,它就絕對看不出來。工程師必須親手設計「數學公式」(即特徵工程),告訴機器該看哪裡。

2. 特徵工程時代的三大代表工具
那段時期的開發者,主要依賴幾種代表性的手工特徵方法來賦予機器視覺。像是 SIFT 擅長找穩定的關鍵點,常用在影像匹配與拼接;Haar Cascade 擅長快速做人臉等目標的粗偵測;而 HOG 則在 2005 年後成為經典的行人偵測方法之一,透過統計局部梯度方向來描述輪廓結構。
那段時期的開發者主要依賴以下三套工具來賦予機器視覺:
- HOG(方向梯度直方圖)— 偵測邊緣的「素描大師」
- 工程師設定公式去計算影像中顏色變化的方向。它會把貓咪的照片切成無數個小格子,統計每一格的「線條斜度」。如果線條拼起來像個圓形,機器就覺得那是貓頭。
- 過去實作: 最早被大量用在「行人偵測」。它能辨識出直立的人形輪廓,讓早期的智慧監視器知道有人經過。
- 缺點: 禁不起形變。如果人是趴著、倒立,或是被雨傘遮住一半,HOG 就會因為線條對不上而認不出來。
- SIFT(尺度不變特徵轉換)— 尋找印記的「偵探」
- 在影像中找出一些具有代表性的「關鍵點」(例如拐角、斑點),並幫這些點做標記。最厲害的是,不論物體變大、變小或旋轉,這些點的相對特徵都不會變。
- 過去實作: 手機相機的「影像拼接」(全景模式)。它能找出兩張照片重疊處的關鍵點,像扣鈕扣一樣把兩張照片完美黏在一起。
- 缺點: 運算成本高。要在每一幀影像中搜尋並比對成千上萬個特徵點,對早期電腦的處理器(CPU)壓力很大。
- Haar Cascade (哈爾級聯)— 判斷光影的「五官快搜」
- 利用簡單的黑白矩形滑過影像,計算兩者之間的亮度差。例如:眼睛區域通常比額頭暗、鼻樑比兩側亮,符合這些「光影比例」的就判定是臉。
- 過去實作: 數位相機的「自動對焦框」。它能用極快的速度在畫面中亂掃,瞬間抓出人臉位置,讓你拍照時不會失焦。
- 缺點: 環境適應力差。只要光線太暗、陰影太重,或是人臉稍微側一點,光影比例一變,它就完全失效了。
這套做法雖然運算輕巧,但天花板卡在工程師的腦袋。對於辨識貓狗或許還行,但遇到像 X 光片診斷 這種任務就卡死了,因為連醫生都難以用簡單的幾何特徵或光影比例,來定義什麼叫「肺部異常陰影」。
二、CNN 革命:機器搶走特徵設計權(2012-2020)
既然我們都能量出貓耳朵的角度、算出眼睛的光影,為什麼這套技術沒辦法一直用下去?
人類可以寫出 100 種定義貓的公式,但現實世界有 1 萬種貓的樣子。當貓咪側躺、躲在紙箱、黑貓在黑沙發上,軟爛成一攤液體,這套技術就認不出來了!
1. 2012 AlexNet 地震:CNN 時代的來臨
到了 2012 年,AlexNet 幾乎像是按下了電腦視覺的換代鍵。它在影像辨識比賽中明顯打贏當時主流方法,讓大家開始相信:與其靠人類手工設計特徵,不如讓模型自己從海量圖片裡學規律。從這一刻開始,深度學習慢慢取代了特徵工程,成為主流。
AlexNet 不是孤獨的勝者,而是 CNN 模型線的引爆點。前後 17 年出現的代表模型,構成了一條從淺到深的演進線:
年份 | 模型 | 層數 | 關鍵突破 |
1998 | LeNet(Yann LeCun) | 5 | 最早的 CNN,用於手寫數字辨識 |
2012 | AlexNet | 8 | 引爆深度學習,ReLU + Dropout |
2014 | VGG | 19 | 證明「深度=準確度」,全用 3×3 小卷積核 |
2015 | ResNet | 152 | 殘差連接破解梯度消失 |
每一代都解決了上一代的瓶頸:AlexNet 靠 ReLU 解決深層訓練梯度死掉、VGG 用小卷積核證明深度本身就是力量、ResNet 用殘差連接讓 152 層成為可能。
這意味著什麼?人類沒有從此完全退出,但特徵設計的重心改變了。過去工程師要手動規定機器看耳朵、看輪廓、看亮暗;進入深度學習時代後,工程師改成設計網路架構、準備資料、定義訓練目標,讓模型自己從大量樣本中學會有效表徵。
過去,人類像個囉嗦的教練,拿著說明書一條一條教電腦:「貓有三角形的耳朵、圓形的臉」。但電腦死腦筋,貓一變胖就不認得了。
深度學習的崛起帶來了典範轉移,科學家決定把說明書撕掉,直接把一百萬張貓的照片砸到電腦臉上,跟它說:「你自己看著辦,找出牠們的共通點!」讓它自己去歸納規律。這個過程在學術上稱為表示學習 (Representation Learning)。
卷積神經網路 (CNN) 模仿人類視覺皮層運作,它的大腦裡有一層一層的「濾鏡」,像是一個闖關遊戲。
2. ResNet 殘差連接:怎麼讓 152 層的網路還記得最初那隻貓
大家都說深度學習的網路越深越好,那我們能不能疊個一百層?
因為神經網路就像傳聲筒遊戲,一層一層將聲音傳遞到後面,又從後面將指令傳回第一個人,這樣來回排在最前面的網路根本聽不到修正指令,永遠學不會看特徵。
學術上稱為梯度消失(Vanishing Gradient)。
直到後來,微軟團隊提出了 ResNet 模型,發明了「殘差連接 (Residual Connection)」技術。這就像是在一層一層傳遞的網路中,架設了無數條直達一樓的專線電話,確保最原始的貓咪特徵不會在傳遞中被遺忘。ResNet 成功突破了 152 層的極限,徹底證明了「讓機器自動學特徵」這條路不僅走得通,而且深不可測。
電腦的眼睛,就此從被動測量的尺規,進化成能主動提取抽象概念的強大視覺系統。
3. CNN 的大腦構造:這五層濾鏡是如何分工的?

卷積神經網路(CNN)並非單一工具,而是由五個層次分工合作的精密系統。機器學習「抽特徵」的關鍵就在這五關:
層次 | 角色 | 動作 |
卷積層(Convolutional Layer) | 抽特徵 | 用卷積核掃過影像,產生特徵圖 |
池化層(Pooling Layer) | 瘦身 | 壓縮特徵圖(最常用 Max-Pooling) |
激活層(Activation Layer) | 加非線性 | 用 ReLU 等函數讓網路學得到複雜模式 |
全連接層(Fully Connected Layer) | 整合 | 把抽出的特徵壓成一維向量 |
輸出層(Output Layer) | 給答案 | 用 Softmax 轉成各類別的機率 |
CNN 的三層濾鏡讓機器學會抽特徵,但中間怎麼壓縮、最後怎麼輸出,靠的是兩個關鍵元件:Max-Pooling(中間層瘦身)跟 Softmax(最後一層轉機率)。

- Softmax:把分數換成機率的最後一道門
- 位置:分類網路的最後一層
- 作用:把原始分數轉成機率,全部類別加起來等於 1
- 比喻:把全班成績單改成百分比。每個人還在表上,全班加起來剛好 100%
- 例子:原始分數「貓 8.2、狗 5.1、車 0.3」→ Softmax 後「貓 0.95、狗 0.04、車 0.01」
CNN 做分類時,最後一層會吐一串原始分數,但這些數字直接看不出意義。Softmax 把它換成讀得懂的機率。
- Max-Pooling:在中間層壓縮特徵圖
- 位置:CNN 網路的中間層
- 作用:把特徵圖切成小區塊(例如 2×2),每塊只留最大值,其他丟掉
- 比喻:每個班只留第一名。其他人不被記錄
- 例子:2×2 區塊「[3, 1] / [2, 8]」→ Max-Pooling 後只剩「8」
CNN 一張圖經過卷積後會產生很多大張的「特徵圖(feature map)」,運算成本貴。Max-Pooling 在中間幫忙瘦身,只保留最強訊號。
4. CNN 三關闖關:從邊緣紋理到語意概念

- 第一關(淺層濾鏡): 電腦像個大近視眼,只看得到畫面中最基本的線條、光影邊界(例如貓咪背部的一條弧線,或是一條斜線)。
- 第二關(中層濾鏡)幾何圖形: 它把上一關的線條拼起來,發現「咦!兩條斜線可以拼成一個小三角形,幾條弧線可以圍成圓形」。
- 第三關(深層濾鏡)語意概念 : 它再把形狀拼起來,突然頓悟了:「小三角形加圓形,再配上剛剛的直線,原來這組合起來就是『貓耳朵』和『貓臉』啊!」
5. 特徵工程 vs CNN:兩階段對照表
比較維度 | 傳統特徵工程時代 (前 2012 年) | CNN 深度學習革命 (2012 年後) |
核心概念 | 人工設計 (Hand-crafted)
人類告訴電腦該看什麼。 | 表示學習 (Representation Learning)
機器自己從資料中找出規律。 |
特徵擷取者 | 領域專家與工程師
利用數學公式手動設計濾鏡(如 HOG 算梯度、SIFT 找極值點)。 | 卷積層 (Convolutional Layers)
神經網路透過反覆訓練,自動將像素組合成邊緣、形狀到語意。 |
資料量依賴度 | 較低
幾百或幾千張圖片即可運作,因為規則已經由人類寫死。 | 極高
需要海量標註數據(如 ImageNet 的百萬張圖)來讓機器「歸納」經驗。 |
硬體運算需求 | 較低
主要依賴 CPU 運算,適合早期資源受限的設備。 | 極高
強烈依賴 GPU 的平行運算能力來處理龐大的矩陣相乘。 |
技術門檻重點 | 領域知識 (Domain Knowledge)
需要深厚的數學與電腦視覺理論基礎才能設計出好特徵。 | 架構與資料 (Architecture & Data)
重心轉移至模型架構設計(如 ResNet)與資料品質管理(MLOps)。 |
效能天花板 | 容易遇到瓶頸
面對複雜的光影、角度變化或遮擋,人工設計的規則很難窮舉。 | 持續突破
只要資料夠多、網路夠深、算力夠強,模型效能就能不斷提升。 |
三、同一張圖,模型到底在回答什麼問題?五種任務與五套判準
CNN 都能認出貓狗了,為什麼還要分五種不同的看法? 分類一個不夠用嗎?
因為「是什麼」、「在哪裡」、「每個像素屬於誰」是三種截然不同的問題,一個模型架構回答不了全部。

當電腦具備了提取特徵的能力後,工程師開始對它提出更刁鑽的要求。差別不在於模型看的是不同圖片,而是它被要求輸出不同層級的答案。有的只要吐一個標籤,有的要框出位置,有的甚至要一塊塊像素分類。這也是為什麼電腦視覺會發展出分類、偵測、語意分割、實例分割與全景分割等不同任務。
輸出層級變了,評分的量尺也跟著變。雖然這些任務早期大多建立在 CNN 及其衍生架構上,但近年也已大量引入 Transformer 與 hybrid 架構。真正的差別,在於它要回答的問題層級不同。
任務 | 回答的問題 | 輸出粒度 | 代表模型 | 主指標 |
影像分類 | 這是什麼? | 整張圖一個標籤 | ResNet、VGG | Accuracy |
物件偵測 | 在哪裡? | 邊界框 + 類別 | YOLO、Faster R-CNN | IoU + mAP |
語意分割 | 每像素是什麼? | 像素類別 | U-Net、FCN | mIoU + Dice |
實例分割 | 每個個體是誰? | 像素遮罩 + 實體 ID | Mask R-CNN | Mask AP |
全景分割 | 類別 + 個體一次到位 | 像素類別 + 實體 ID | Panoptic FPN | PQ |
1. 影像分類(Image Classification):這張圖是什麼?
- 定義:對整張影像進行類別判斷,回答「這張圖是什麼」。
- 實務應用:手機相簿自動把貓的照片抓出來放在同一本相簿、社群內容過濾、商品辨識搜尋。
- 怎麼判準不準:
- Accuracy(準確率):測試集裡分對的比例,最基礎。
- Top-5 Error(前五錯誤率):模型預測前五名內含正確類別就算對。類別數量龐大時(如 ImageNet 1000 類)才有意義,光看 Top-1 太嚴。
- 混淆矩陣(Confusion Matrix):列出每個類別「實際 vs 預測」的分布,能看出模型把貓誤認成什麼類別——是把貓當狗、還是當沙發?
- 優點:運算速度最快、訓練門檻最低。
- 缺點:資訊太籠統,完全無法提供物件的位置資訊。
2. 物件偵測 (Object Detection):畫面裡有什麼、在哪裡?
- 定義:找出影像中所有感興趣的目標,並用邊界框 (Bounding Box) 標示位置。
- 常見模型分三派:
- YOLO(You Only Look Once):速度路線,一次回歸出所有框,適合即時監控。
- Faster R-CNN:準確度路線,先用區域提議網路找候選區再分類。
- SSD(Single Shot Multibox Detector):折衷路線,用多尺度特徵在速度與精度之間取平衡。
- 速度優先選 YOLO,精度優先選 R-CNN 家族,折衷選 SSD。
- 實務應用:商店防竊監控。偵測人手是否伸向商品,並標示出人的位置。
- 怎麼判準不準:指標分兩層:先用 IoU 判單一個框夠不夠準,再用 mAP 把所有類別統計成總分。
- IoU(Intersection over Union,交並比):兩框重疊面積 ÷ 聯集面積。完全重合是 1、完全不重疊是 0。像兩張貓咪貼紙疊起來,重疊越多分數越高。
- IoU 閾值越高越嚴格:0.75 比 0.5 嚴格,只有重疊夠多的框才算對。監控用 0.5 就夠、醫療要 0.8。
- mAP(mean Average Precision,平均精確率均值):每個類別算一個 AP,全部平均成綜合分數。像全班段考總平均,一個數字看整體水準。
- 優點:能同時處理多個目標並定位,YOLO 模型能做到極高速度的即時辨識。
- 缺點:框框是矩形的,當兩個物件重疊(例如貓疊在一起)時,框框會互撞導致誤判。
3. 語意分割 (Semantic Segmentation):每個像素分別屬於什麼?
- 定義:將影像中的每個像素進行分類,區分不同區域的「含義」。
- 比喻:「視訊背景去背」。把所有屬於「貓」的像素塗紅,剩下的背景塗黑。不管幾隻貓,在它眼裡都是同一團紅色。
- 實務應用:醫療 X 光片腫瘤偵測。精確勾勒出病灶的區域,幫助醫生判斷擴散程度。
- 怎麼判準不準:指標從「框」改成「像素級別」,看 mIoU 跟 Dice。
- mIoU(mean IoU):跟 IoU 同公式,計算對象從「框」換成「每個類別的像素集合」,再跨類別平均。像描圖紙疊起來:路(紅)、人(綠)、天空(藍)各算 IoU 再平均。自駕車資料集 Cityscapes 看的就是這個。
- Dice 係數:跟 IoU 都是衡量重疊,但公式對小目標更敏感。腫瘤只佔 CT 片 2% 的像素時,IoU 漏掉幾乎不扣分,Dice 直接崩盤:這才是醫生要的警報。ISBI 等醫療分割競賽一律用 Dice。
- 優缺點:
- 優點:達到像素級的精確度,比框框更細膩。
- 缺點:無法分辨個體。如果兩隻貓靠在一起,它會覺得那是一坨巨大的雙頭貓。
4. 實例分割 (Instance Segmentation):同樣都是車子,每一台分別是哪一台?
- 定義:結合物件偵測與語意分割,區分同類別中的不同個體。
- 比喻:「精準的剪紙藝術」。它不僅把貓去背,還能分清「這塊肉體是小橘的、那塊是小黑的」。
- 代表模型 Mask R-CNN:它在偵測框之外,額外為每個實體預測一張遮罩。這類方法讓模型不只知道「有車」,還知道「這一台車的輪廓到哪裡」。
- 實務應用:自動化果園採收。機器手臂必須看清「這一顆」番茄的精確邊緣,才不會抓碎旁邊的番茄。
- 怎麼判準不準:
- Mask AP(Mask Average Precision):把 mAP 的「框」換成「遮罩」。每個實體的遮罩各算 IoU,再算 AP,再跨類別平均。
- 框 vs 遮罩:框 AP 寬鬆(方方正正就行),遮罩 AP 嚴格(AI 畫的「張先生那台 Tesla」輪廓得沿車體曲線走才算對)。COCO 實例分割 benchmark 看的就是 Mask AP。
- 優點:能解決物件重疊問題,是目前最精細的物件識別技術之一。
- 缺點:運算極其沉重,對電腦顯示卡(GPU)的要求非常高。
5. 全景分割 (Panoptic Segmentation):集五種看法之大成
- 定義:視覺理解的終極任務。同時完成背景的「語意分割」與主角的「實例分割」。
- 比喻:「全知全能的上帝視角」。AI 不僅認出每一隻貓,還看懂了貓踩的地板、後方的窗簾以及天空。整張照片沒有任何一處馬賽克。
- 實務應用:自動駕駛系統。車子必須同時區分「行人 A、車輛 B」(個體)與「馬路、安全島」(背景)。
- 怎麼判準不準:用專用指標 PQ(Panoptic Quality,全景品質),公式是 PQ = SQ × RQ。
- SQ(Segmentation Quality,分割品質):切出來的遮罩跟真實遮罩的 IoU 平均。
- RQ(Recognition Quality,識別品質):該抓的有沒有漏、不該抓的有沒有亂抓。
- 三關考試一次過:類別分對(馬路 vs 天空)+ 身分分對(張先生 Tesla vs 李先生 Prius)+ 背景連成片(天空整片不破碎)。PQ 不漂亮等於告訴讀者「這車上路會出事」。
- 優點:提供最完美的環境理解,沒有死角。
- 缺點:模型最複雜、標註資料最昂貴,是目前技術天花板。
四、誰教 AI 看圖?影像標註的世界
AI 看圖看得這麼準,背後是誰教的?
是人。CV 模型不是天才,它得靠人類餵的「標準答案」一張一張學。影像標註做的就是把原始圖片變成「機器看得懂的標準答案」,標好標滿,模型才會準。
CV 模型的命脈不是模型架構有多炫,而是訓練資料的標註品質。標註標得好,再普通的模型都能跑起來;標註偷工減料,再貴的模型架構也救不回來。

1. 影像標註:為機器建立標準答案的六大類型
- 類別標籤 (Label):給整張圖貼一個類別(如「貓」「狗」「車」)。最便宜、最快,影像分類專用。
- Bounding Box:用矩形框框住物體。最快、最便宜,是 YOLO 或 Faster R-CNN 的標準餵食格式。
- Polygon:用多個頂點連成的封閉形狀框出輪廓。比矩形框精細,能貼合不規則邊緣。
- Keypoint:標記特定點位(例如人臉的眼角、鼻尖、肩關節)。姿態估計與表情辨識常用。
- Mask:每個像素都標一個類別。成本最高,但對於自動駕駛或醫療影像來說是必備的生命線。
- OCR:把文字區塊框出來並輸入正確字串,這是文字辨識模型訓練的基礎。
不同任務需要不同精細度的標註,從快到慢、從便宜到貴:
標註類型 | 精細度 | 標一張的時間 | 對應任務 |
類別標籤(Label) | 極低 | 3-10 秒 | 影像分類 |
Bounding Box(邊界框) | 低 | 10-30 秒 | 物件偵測 |
Polygon(多邊形) | 中 | 1-3 分鐘 | 細緻偵測、分割 |
Keypoint(關鍵點) | 中 | 30 秒-2 分鐘 | 姿態估計、表情辨識 |
Mask(像素遮罩) | 高 | 5-15 分鐘 | 語意分割、實例分割 |
OCR(文字框 + 字串) | 中 | 1-2 分鐘 | 文字辨識 |
2. 資料前處理:讓模型「好消化」的精煉工序

在標註完成後、餵進模型前,我們必須對影像進行「資料前處理」。主要目的是統一格式、增強品質,並提升訓練效率。
以下是業界常見的七大前處理技術:
- 圖像尺寸處理 (Resize / Padding / Cropping):將影像統一為模型所需的輸入大小,避免形變或資訊遺失。
- 正規化處理 (Pixel Normalization):將像素值(如 0-255)轉為 0-1,或標準化至均值為 0、標準差為 1,幫助模型收斂。
- 像素增強 (直方圖均衡化、Gamma 校正):提升影像對比度與亮度,適合低光源或品質較差的原始影像。
- 噪聲去除 (平滑濾波、邊緣保留濾波):減少感測器產生的雜訊(如高斯濾波、雙邊濾波)。
- 色彩空間轉換 (RGB ↔ Grayscale, HSV):根據任務調整顏色通道,灰階處理常用於簡化輸入、節省算力。
- 資料擴增 (Data Augmentation):利用翻轉、旋轉、裁剪、模糊等手段,人為增加資料多樣性,增強模型泛化能力並對抗過擬合。
- 序列統一:在影片辨識中進行影格取樣,應用於動作辨識或影像序列建模任務。
3. 標註成本與品質控管
CV 資料集動輒幾十萬到幾百萬張圖,全部找專家標不可能。產業常見的三層做法:
- 群眾外包(Crowdsourcing):用 Amazon Mechanical Turk、Scale AI、Labelbox 等平台,把任務拆成小批丟給全球標註員。便宜,但品質參差,需要嚴格的品管機制。
- 半自動標註:先用 SAM(Segment Anything Model)這類預訓練模型粗標一輪,再讓人類校正。能把標註時間砍掉 70-80%,是 2023 年後業界主流。
- 品質控管機制:同一張圖讓 3-5 個標註員獨立標,再看一致性(Inter-Annotator Agreement,IAA)。一致性低代表這張圖本身有歧義,需要重新檢視。
4. 標註偏誤:兩個醫師看同張片,誰是對的?
兩個放射科醫師看同一張 X 光片,A 醫師圈出 5 個可疑陰影、B 醫師圈出 3 個。AI 該信誰?
CV 模型的「準」其實是「跟標註員的判斷一致」。如果標註員自己有偏見(例如某族裔的人臉特徵被誤標)、或不同標註員的標準不一致,模型學到的就是這套偏見。
標註偏誤的問題,不只會影響模型在 benchmark 上的分數,更會在高風險場景中放大成真實世界的代價。當模型被用在校園安防、執法或醫療時,一次誤判就可能不是「分數掉幾點」,而是直接影響人的處境。
這也是為什麼大型資料集(ImageNet、COCO)會反覆做品質審核,並在後續版本中修正錯誤標註。標註就是幫資料貼標籤。標註員的偏見會直接成為模型的偏見,進產線之後就是真實世界的傷害。
💡 真實案例:16歲黑人學生艾倫(Taki Allen)足球練習後,將一包揉皺的多力多滋空袋塞進口袋。校園內的 AI 槍枝偵測系統(Omnilert)偵測到口袋裡的形狀,誤認為是手槍。系統觸發後,約 8 輛警車迅速趕到,警察持槍指著艾倫,命令他下跪並將他上銬搜身。 來源:衰!吃多力多滋「AI判定為手槍」 美16歲學生慘遭包圍上銬
美國國家標準與技術研究院(NIST)研究顯示,人臉辨識系統對黑人與亞洲人的誤判率,比對白人高出 10 到 100 倍。
五、CV 用起來不是萬能:技術挑戰與倫理風險
AI 影像辨識在實驗室準到 99%,到了現場卻常出包,為什麼?
CV 從訓練到部署中間有四個關卡:資料分佈、運算限制、倫理風險、法規應對。每一關都能讓模型翻車。現場踩坑的故事比實驗室成功的論文多。

1. 資料挑戰:領域偏移(Domain Shift)
模型在訓練資料上準到 95%,換到實際使用環境就崩盤。原因是訓練資料的分佈跟現場資料分佈不一樣,這叫領域偏移。
在 2020 年疫情爆發初期,由於疫情緊急,南韓有家公司用 AI 判讀 COVID 的 CT 影像,火速拿到 FDA 認證上市,結果不到三個月就失準下架,病毒一變種、影像特徵跑掉,AI 在實驗室準到 95% 的成績到醫院端全變錯誤。
在自駕車的領域,台灣複雜的混合車流(機車鑽縫、施工改道頻繁、招牌林立)產生的影像數據,與歐美地廣人稀的訓練數據截然不同。如果 AI 在實驗室準確率 95%,那是因為訓練數據是乾淨的歐美道路。一旦放到台灣,影像特徵如「雨後反光的標線」、「路邊違停閃爍的黃燈」或「密集的機車群」,就容易出現類似 COVID AI 在變種病毒出現後的「辨識斷層」。
2. 部署挑戰:邊緣運算的算力限制
另一個常見問題不是模型不準,而是模型太肥。
雲端跑得動的大模型,搬到手機、攝影機、車載系統就跑不動。
CV 模型部署常遇到「算力卡脖子」。雲端跑得動的大模型,搬到手機、攝影機、車載系統或邊緣設備時,可能就會遇到延遲、發熱、耗電與記憶體不足等限制。因此實務上常見的做法,不是盲目追求最大模型,而是透過量化(Quantization)、知識蒸餾(Knowledge Distillation)、模型剪枝與分級處理,在準確度、速度與硬體成本之間找平衡。
模型不是越大越好。如果要在設備裡也跑得動,模型也要開始為了硬體而瘦身。
3. 倫理挑戰:人臉辨識偏誤 + Deepfake 詐騙
CV 跨進臉部、生物特徵領域後,倫理問題就跟著來。最常見的兩個:訓練資料族群偏差(白人準、亞裔黑人不準)、Deepfake 換臉詐騙。
偏誤怎麼量化?看模型對不同族群的 誤檢(False Positive,把無辜當嫌犯)vs 漏檢(False Negative,把嫌犯放走) 比例,再用 AUC、精確率(Precision)、召回率(Recall) 跨群體比對。如果亞裔的 AUC 比白人低 5%,這套系統就不該上線執法。
4. 法規應對:EU AI Act 對 CV 的高風險規範
在 EU AI Act 之前,CV 相關合規常聚焦在資料層,例如 GDPR 對人臉與生物特徵資料的敏感個資要求,以及醫療資料在使用上的去識別化要求。EU AI Act 把規範從「資料怎麼用」升級到「AI 系統本身能不能用」
歐盟 AI 法案是全球第一部完整 AI 法案,把 AI 應用按風險分四級:不可接受(Unacceptable)→ 高風險(High Risk)→ 有限風險(Limited Risk)→ 最低風險(Minimal Risk)。CV 領域的人臉辨識、生物特徵識別大多被列入前兩級。
結語:CV 是 AI 的眼睛
從特徵工程時代靠人手設計規則,到 CNN 讓機器自己學會看見,再到影像分類、物件偵測、語意分割、實例分割與全景分割各自長出明確任務邏輯,視覺 AI 的進化,其實不只是模型越來越強,而是機器理解世界的方式越來越細緻。
但 AI 看懂影像從來不只靠演算法本身,它背後仰賴的是大量標註資料所塑造的世界觀,也因此必須面對標註偏誤、領域偏移、算力限制、倫理爭議與法規約束。從 1999 年的 SIFT 到 2024 年的 EU AI Act,這 25 年走過的,不只是技術升級史,更是一段人類不斷校準「如何讓機器看世界」的過程。
當 CV 已經逐漸成為 AI 的眼睛,下一步要接上的,就是那雙會生成、會想像、甚至會重新拼裝視覺世界的手。當機器不再只是理解既有影像,而開始主動創造影像,視覺 AI 的故事,也將從「看懂世界」正式走向「生成世界」。
這篇有幫到你嗎?歡迎餵食煎餃 🥟
每篇文章都是踩坑後整理出來的,你的支持是最好的調味料。
相關文章
.png?table=collection&id=2ba70f01-9634-81f4-8376-000b1aff7bf1&t=2ba70f01-9634-81f4-8376-000b1aff7bf1&width=1080&cache=v2)









