Zubnet AI學習Wiki › 聚類
基礎

聚類

別名:K-Means、DBSCAN、聚類分析

一種無監督學習任務,在沒有預定義標籤的情況下將相似的資料點分組在一起。給定客戶購買資料,聚類可能會發現不同的客戶群體(特價獵人、奢侈品買家、偶爾購物者)。K-means 是最常見的演算法:選擇 K 個聚類,將每個點分配到最近的聚類中心,並迭代精煉這些中心。

為什麼重要

聚類是最常見的無監督學習任務,出現在各處:客戶分群、文件分組、異常偵測(不屬於任何聚類的離群值)、圖像壓縮(將相似的像素分組),以及資料探索(我的資料中存在哪些自然群組?)。它通常是理解新資料集的第一步。

深度解析

K-means 的工作原理:(1)隨機初始化 K 個聚類中心,(2)將每個資料點分配到最近的中心,(3)將每個中心移動到其分配點的均值,(4)重複步驟 2–3 直到收斂。主要挑戰:選擇 K。「肘部法」(繪製損失 vs. K 並找到拐點)和輪廓分數是常見的啟發式方法,但正確的聚類數量通常需要領域知識。

超越 K-Means

DBSCAN 發現任意形狀的聚類(K-means 假設球形聚類)並自動將離群值辨識為噪音點。層級聚類建立一棵巢狀聚類的樹,你可以在任何層級切割。高斯混合模型(GMM)將聚類建模為機率分布,允許軟分配(一個點可以部分屬於多個聚類)。每種方法對不同的資料幾何形狀和使用案例都有優勢。

使用嵌入的聚類

將嵌入與聚類結合對於文本分析非常強大。使用句子嵌入模型嵌入一組文件,然後對嵌入進行聚類。每個聚類代表一個語意群組 — 從資料中浮現的主題或類別。這用於:按主題組織支援工單、發現調查回應中的主題、分組相似產品,以及主題建模(LDA 的現代替代方案)。然後可以通過要求 LLM 總結每個聚類的內容來標記這些聚類。

相關概念

← 所有術語
← 紅隊測試 聯邦學習 →
ESC