系统聚类法的步骤

希赛网 2023-11-19 14:50:44

系统聚类法（Hierarchical Clustering）是一种常见的聚类方法，用于将相似的数据点或样本分组。常用于无监督学习、数据分析、数据挖掘等领域，可以发现数据之间的层次结构并将其呈现在树形状的图中。

本文将从多个角度分析系统聚类法的步骤，包括：

1.系统聚类法的基本原理

系统聚类法是将样本或数据点不断合并为一组，最终形成完整的聚类结果。整个过程可以看作是一棵树形结构，最终形成的树状结构称为系统聚类树（Dendrogram）。

系统聚类法的基本原理是先将每个数据点看作一个单独的小类，然后合并相似度最高的两个小类，不断地进行合并，直到所有数据点都被合并成一个大类为止。在这个过程中，需要确定每一次合并的相似度计算方法。

2.相似度计算方法

相似度计算是系统聚类法的关键步骤之一，也是构建系统聚类树的基础。相似度计算的方法包括：

（1）欧氏距离（Euclidean Distance）：在欧氏空间中，数据点的距离可以通过勾股定理计算。两个数据点之间的距离越短，它们的相似度就越高。

（2）曼哈顿距离（Manhattan Distance）：曼哈顿距离是两个点在标准坐标系上的绝对轴距总和。两个数据点之间的曼哈顿距离越短，它们的相似度就越高。

（3）切比雪夫距离（Chebyshev Distance）：切比雪夫距离是指两个点之间各坐标数值差的绝对值的最大值。两个数据点之间的切比雪夫距离越短，它们的相似度就越高。

3.系统聚类法的具体步骤

系统聚类法的具体步骤包括：

（1）首先将每一个数据点看成一个小类。

（2）计算相邻两个数据点的距离。

（3）根据相似度计算方法，计算每个小类与其他小类的距离。

（4）选择距离最小的两个小类进行合并。

（5）重新计算合并后的小类与其他小类的距离。

（6）重复步骤（4）和（5），直到所有节点合并为一个大类为止。

4.系统聚类树的生成

系统聚类树是系统聚类法的结果之一，将相似的数据点合并成为一个大类，并且根据合并的先后顺序，形成一棵树状结构。可以通过系统聚类树表示数据点之间的相似度，从而方便对数据的分析和理解。

5.优缺点分析

系统聚类法有如下优缺点：

（1）优点：具有很高的灵活性和可移植性，可以应用于不同的数据分析场景中。

（2）缺点：合并的顺序对于最终的结果会产生影响，因此需要对结果进行多次比较和分析。

备考资料免费领取：信息系统管理工程师报考指南+考情分析+思维导图等

真题演练精准解析历年真题，助你高效备考！