K-means的工作方式:(1)随机初始化K个聚类中心,(2)将每个数据点分配到最近的中心,(3)将每个中心移动到其分配点的均值位置,(4)重复步骤2-3直到收敛。主要挑战:选择K。“肘部法则”(绘制损失vs. K并找到弯折点)和轮廓系数是常见的启发式方法,但正确的聚类数量通常需要领域知识。
DBSCAN发现任意形状的聚类(K-means假设球形聚类),并自动将异常值识别为噪声点。层次聚类构建一棵嵌套聚类树,你可以在任意层级切割。高斯混合模型(GMM)将聚类建模为概率分布,允许软分配(一个点可以部分属于多个聚类)。每种方法对不同的数据几何形状和用例有各自的优势。
将嵌入与聚类结合对文本分析非常强大。使用句子嵌入模型对文档集合进行嵌入,然后对嵌入进行聚类。每个聚类代表一个语义分组——从数据中涌现的主题、话题或类别。这用于:按主题组织客服工单、发现调查回复中的主题、分组相似产品、以及主题建模(LDA的现代替代方案)。然后可以通过让LLM总结每个聚类的内容来为聚类添加标签。