Zubnet AI学习Wiki › 聚类
基础

聚类

别名:K-Means、DBSCAN、聚类分析
一种在没有预定义标签的情况下将相似数据点分组在一起的无监督学习任务。给定客户购买数据,聚类可能发现不同的客户群体(打折猎手、奢侈品买家、偶尔购物者)。K-means是最常用的算法:选择K个聚类,将每个点分配到最近的聚类中心,并迭代优化中心位置。

为什么重要

聚类是最常见的无监督学习任务,应用无处不在:客户细分、文档分组、异常检测(不属于任何聚类的异常值)、图像压缩(将相似像素分组)和数据探索(我的数据中存在哪些自然分组?)。它通常是理解新数据集的第一步。

深度解析

K-means的工作方式:(1)随机初始化K个聚类中心,(2)将每个数据点分配到最近的中心,(3)将每个中心移动到其分配点的均值位置,(4)重复步骤2-3直到收敛。主要挑战:选择K。“肘部法则”(绘制损失vs. K并找到弯折点)和轮廓系数是常见的启发式方法,但正确的聚类数量通常需要领域知识。

超越K-Means

DBSCAN发现任意形状的聚类(K-means假设球形聚类),并自动将异常值识别为噪声点。层次聚类构建一棵嵌套聚类树,你可以在任意层级切割。高斯混合模型(GMM)将聚类建模为概率分布,允许软分配(一个点可以部分属于多个聚类)。每种方法对不同的数据几何形状和用例有各自的优势。

结合嵌入的聚类

将嵌入与聚类结合对文本分析非常强大。使用句子嵌入模型对文档集合进行嵌入,然后对嵌入进行聚类。每个聚类代表一个语义分组——从数据中涌现的主题、话题或类别。这用于:按主题组织客服工单、发现调查回复中的主题、分组相似产品、以及主题建模(LDA的现代替代方案)。然后可以通过让LLM总结每个聚类的内容来为聚类添加标签。

相关概念

← 所有术语
← 联邦学习 腾讯 →