聚類：定義與含義 — AI 維基

一種無監督學習任務，在沒有預定義標籤的情況下將相似的資料點分組在一起。給定客戶購買資料，聚類可能會發現不同的客戶群體（特價獵人、奢侈品買家、偶爾購物者）。K-means 是最常見的演算法：選擇 K 個聚類，將每個點分配到最近的聚類中心，並迭代精煉這些中心。

為什麼重要

聚類是最常見的無監督學習任務，出現在各處：客戶分群、文件分組、異常偵測（不屬於任何聚類的離群值）、圖像壓縮（將相似的像素分組），以及資料探索（我的資料中存在哪些自然群組？）。它通常是理解新資料集的第一步。

深度解析

K-means 的工作原理：（1）隨機初始化 K 個聚類中心，（2）將每個資料點分配到最近的中心，（3）將每個中心移動到其分配點的均值，（4）重複步驟 2–3 直到收斂。主要挑戰：選擇 K。「肘部法」（繪製損失 vs. K 並找到拐點）和輪廓分數是常見的啟發式方法，但正確的聚類數量通常需要領域知識。

超越 K-Means

DBSCAN 發現任意形狀的聚類（K-means 假設球形聚類）並自動將離群值辨識為噪音點。層級聚類建立一棵巢狀聚類的樹，你可以在任何層級切割。高斯混合模型（GMM）將聚類建模為機率分布，允許軟分配（一個點可以部分屬於多個聚類）。每種方法對不同的資料幾何形狀和使用案例都有優勢。

使用嵌入的聚類

將嵌入與聚類結合對於文本分析非常強大。使用句子嵌入模型嵌入一組文件，然後對嵌入進行聚類。每個聚類代表一個語意群組 — 從資料中浮現的主題或類別。這用於：按主題組織支援工單、發現調查回應中的主題、分組相似產品，以及主題建模（LDA 的現代替代方案）。然後可以通過要求 LLM 總結每個聚類的內容來標記這些聚類。

聚類

為什麼重要

深度解析

超越 K-Means

使用嵌入的聚類

相關概念