C09. 聚类
层次聚类
层次聚类 ( Hierarchical
Clustering ) :在不同层次对数据集进行划分,从而形成树形的聚类结构,数据集的划分可以采用「自底向上」的聚合策略,也可采用「自顶向下」的分拆策略。
AGNES ( AGglomerative
NESting ) :也叫凝聚聚类,是一种采用自底向上聚合策略的层次聚类算法。
算法执行过程:
- 将数据集中的每个样本看作一个初始聚类簇
- 在算法运行的每一步中找出距离最近的两个聚类簇进行合并,并且反复执行合并过程,直至达到预设的聚类簇个数
- 如何计算聚类簇之间的距离
- 最小距离:两个簇的最近样本决定
- 最大距离:两个簇的最远样本决定
- 平均距离:两个簇的所有样本共同决定
- 如何计算聚类簇之间的距离