《系统聚类算法》作业 一、选择题 1. 系统聚类算法中,最常用的距离度量方法是_____。 A. 曼哈顿距离 B. 欧氏距离 C. 切比雪夫距离 D. 马氏距离 答案:B 解析:在系统聚类算法中,欧氏距离是最常用的距离度量方法之一,因为它计算简单且直观,能够很好地反映样本之间的相似性。尽管其他距离度量方法也有其应用场景,但欧氏距离在大多数情况下都能提供良好的性能。 2. 在层次聚类中,凝聚型聚类是指_____的过程。 A. 从单个簇开始,逐渐合并簇 B. 从所有点在一个簇中开始,逐渐分裂簇 C. 同时合并和分裂簇 D. 随机分配簇 答案:A 解析:凝聚型聚类是层次聚类的一种类型,它从每个数据点作为单独的簇开始,然后逐步合并最相似的簇,直到达到预定的簇数量或满足其他停止条件。这种方法通过迭代地合并最相似的簇来构建聚类层次结构。 3. 在系统聚类算法中,使用轮廓系数来评估聚类效果时,轮廓系数的值越接近_____,表示聚类效果越好。 A. -1 B. 0 C. 1 D. 无穷大 答案:C 解析:轮廓系数是一种常用的聚类效果评估指标,它的值范围从-1到1。当轮廓系数的值接近1时,表示样本与其所属簇内的其他样本非常相似,而与其他簇的样本差异很大,即聚类效果很好。相反,当轮廓系数的值接近-1时,表示样本可能被错误分类。因此,轮廓系数的值越接近1,聚类效果越好。 4. 在K-means聚类算法中,初始聚类中心的选择对最终聚类结果有较大影响。以下哪种方法不是选择初始聚类中心的常用方法? A. 随机选择 B. K-means++算法 C. 密度峰值算法 D. 最近邻算法 答案:D 解析:在K-means聚类算法中,初始聚类中心的选择对最终聚类结果有较大影响。常用的选择方法包括随机选择、K-means++算法和密度峰值算法等。然而,最近邻算法并不是用于选择初始聚类中心的方法,它更多地用于分类任务中确定样本的最近邻样本。 5. 在谱聚类算法中,Laplacian矩阵的特征向量用于_____。 A. 确定簇的数量 B. 计算样本间的距离 C. 构造聚类图 D. 选择初始聚类中心 答案:C 解析:在谱聚类算法中,Laplacian矩阵的特征向量用于构造聚类图。通过计算Laplacian矩阵的特征向量,可以构建一个低维空间(如二维平面),在这个空间中,原始高维空间中的簇将更加明显地分离开来。然后,可以使用传统的聚类算法(如K-means)在这个低维空间上进行聚类分析。 二、填空题 6. 系统聚类算法是一种基于_____的聚类方法。 答案:样本相似性 解析方法:系统聚类算法是一种基于样本相似性的无监督学习方法,它根据样本之间的相似度或距离来自动地将样本划分为不同的簇。通过迭代地合并最相似的簇或分裂最不相似的簇,系统聚类算法能够生成一个嵌套的簇结构,从而揭示数据的内在结构和模式。 7. 在层次聚类中,每次合并两个最相似的簇的过程称为_____。 答案:一次迭代 解析方法:在层次聚类中,每次合并两个最相似的簇的过程称为一次迭代。这个过程会持续进行,直到达到预设的簇数量或满足其他停止条件为止。通过多次迭代,层次聚类能够逐步构建出一个完整的聚类层次结构。 8. 轮廓系数是一种用于评估_____效果的指标。 答案:聚类 解析方法:轮廓系数是一种常用的聚类效果评估指标,它通过计算每个样本与其所属簇内其他样本的平均距离以及与最近邻簇的平均距离之差来衡量聚类效果的好坏。轮廓系数的值范围从-1到1,值越大表示聚类效果越好。 9. 在K-means聚类算法中,每个簇由一个_____代表。 答案:质心 解析方法:在K-means聚类算法中,每个簇由一个质心(也称为簇中心)代表。质心是簇内所有样本点的均值向量,它能够概括地描述簇内样本的总体特征。通过不断更新质心并重新分配样本到最近的质心所在的簇,K-means算法能够逐步优化聚类结果。 10. 谱聚类算法利用_____矩阵的特征向量来 ... ...