機器學習：定義與含義 — AI 維基

電腦科學中廣泛的領域，系統透過資料學習模式，而非遵循明確的規則。不是透過列出特徵（四隻腳、尖耳朵、鬍鬚）來編程讓電腦辨識貓，而是展示數千張貓的照片，讓它自行找出模式。機器學習涵蓋從簡單的線性回歸到驅動當代人工智能的深層神經網絡 — 監督學習（標記過的範例）、非監督學習（發現結構），以及強化學習（試錯法）。

為什麼重要

機器學習是今日我們所稱「AI」的一切基礎。每一個LLM、每一個影像生成器、每一個推薦演算法、每一個垃圾郵件過濾器—這一切都是機器學習。將ML視為一個更廣泛的學科，能幫助你理解深度學習適用的領域、經典方法仍佔優勢的地方，以及為何「AI」其實只是「ML變得非常出色」罷了。

深度解析

機器學習可分為三個范式，了解哪一種適用，可以避免使用錯誤的工具。監督學習是主力：你提供模型標記過的範例（這封郵件是垃圾郵件，這封則不是），讓它學習從輸入到輸出的映射。分類、回歸、翻譯、圖片說明文字 — 如果你有標記資料，監督學習幾乎肯定是你的起點。非監督學習則不需要標記：它自行發現結構。根據購買行為分群客戶、將一萬個特徵的資料集縮減至最資訊的維度、偵測與任何已知模式都不匹配的異常網路流量。當你不知道自己在找什麼時，就會使用它，這比人們承認的還要常見。強化學習則是異類 — 模型透過試錯學習，根據其行為獲得獎勵或懲罰。AlphaGo擊敗世界冠軍、機器人學習走路、RLHF讓大型語言模型與人類偏好對齊，都是透過強化學習實現的。它也以難以正確實現而聞名，這就是為何大多數生產環境的機器學習仍然是監督學習。

經典機器學習 vs. 深度學習

有一個持續存在的迷思認為深度學習已經讓經典機器學習過時了。事實並非如此。當你有500筆表格資料、明確的特徵集合，且需要向監管機構解釋預測結果時，邏輯回歸仍然比Transformer更有效。隨機森林和梯度提升樹（XGBoost、LightGBM）之所以在結構化資料的Kaggle競賽中佔據主導地位，是有原因的 — 它們訓練速度快、不易過擬合，且特徵重要性可解釋。深度學習在資料無結構（圖片、文字、音訊、影片）且特徵複雜到無法手動設計時才真正發光。沒有人再手動撰寫邊緣偵測濾波器，因為卷積網絡能學習更好的版本。沒有人再為翻譯撰寫語法規則，因為Transformer能端對端學習映射關係。關鍵在於知道自己處於哪種領域。如果你的資料能放入試算表，先試XGBoost。如果不行，那就是神經網絡展現其複雜性的時刻。

訓練迴圈

每個機器學習專案都遵循相同的迴圈，無論你是訓練垃圾郵件過濾器或4000億參數的大型語言模型。你從資料開始 — 收集資料、清理資料、將資料拆分為訓練集和測試集。然後提取或學習特徵：在經典機器學習中，這意味著手動設計特徵（字詞計數、像素直方圖、日期特徵）；在深度學習中，模型則從原始輸入中學習自己的特徵。你選擇模型架構，透過最小化訓練資料上的損失函數來訓練模型，然後在保留資料上評估模型，以確認它是否真的具備泛化能力。第一次幾乎從來不會成功。因此你會反覆迭代 — 更多資料、更好的特徵、不同的超參數、完全不同的架構。教科書中的機器學習流程與實際生產系統之間的差距，大多是這個迴圈，反覆執行數百次，實驗越來越絕望，直到有某個方法足夠好能部署。

為何現在

機器學習的觀念並非全新。反向傳播在1980年代就已提出。支援向量機和隨機森林在2000年代初就已成熟。改變的是三件事同時收斂。第一，資料：網際網路產生了比任何人知道如何處理還要多的標記和未標記資料。第二，計算：GPU意外地完美適應神經網絡所需的矩陣乘法，雲端供應商則按小時提供這些GPU。第三，演算法：批次標準化、dropout、注意力機制和更好的最佳化器，使得訓練之前過於深且不穩定的網絡成為可能。這三者中任一因素單獨都不足夠。1990年代已有大量資料，但沒有人有足夠的計算能力來訓練。2000年代已有GPU，但訓練百層網絡的演算法技巧尚未被發現。直到這三者同時到來，才觸發了當前的浪潮 — 這也是機器學習從學術好奇心變成全球資金投入最多的科技領域的主因。

機器學習

為什麼重要

深度解析

經典機器學習 vs. 深度學習

訓練迴圈

為何現在

相關概念