(
课件网) K 均值聚类 赣科学技术版五年级下册 第12课 K 均值聚类 了解并掌握K 均值聚类的含义 能运用K 均值聚类解决实际问题 任务卡 一 说一说 班主任老师决定为全班的学生安排校车,来接送同学们上学、放学。 一开始,老师随机宣布了2个候车点,并且把这2个候车点的情况告诉了班上的同学,于是每个同学可以选择到离自己家最近的候车点等校车。 老师随机选择候车点的方式合适吗 一 说一说 假如你是负责安排候车点的老师,你会如何安排候车点 随机设置候车点一段时间后,有部分同学反馈,候车点离自己的家太远了,不方便候车,于是学校对全校同学的家庭住址重新进行了统计。 一 说一说 请你根据同学们的家庭住址如图12-1所示,将2个候车点设置的位置画在你觉得合适的位置上。 二 想一想 你在选取候车点位置的时候,最主要考虑的因素是什么 你是如何确保自己选择的候车点能够满足这个因素的 请在书本50页写下你的想法。 三 学一学 校车候车点到每个同学家之间的距离是我们做选择时的关 键的因素。然而,在我们人为选择候车点时,如果没有确定候车点的位置,我们就无法计 算候车点与同学们家之间的距离,因此也就无法比较距离是否合适,进而也就无法确定候 车点的选择,这似乎成了一个死循环。 有没有什么方法可以帮助我们解决这个问 题 K 均值聚类算法 一种迭代求解的聚类分析算法,其步骤是:将所有数据分为 K 组,随机选取K 个对象作为初始的聚类中心,这个聚类中心成为种子聚类中心。然后依 次计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类 中心。每个聚类中心以及分配给它们的对象就代表一个聚类。每次分配一个样本,聚类 的聚类中心就会根据聚类中的现有对象进行重新计算,直到满足某个终止条件。 三 学一学 如果我们在计算机中用K 均值聚类算法进行分析,那么计算机将进 行的运算是:已知要将所有同学的家庭住址分成2组(K=2), 让到候车点1近的同学去“候车点1”组,到候车点2近的同学去“候车点2”组。 为了完成这个分组,计算机会先随机选择2个同学的家庭住址作为初始的“候车点 位置”。再依次计算每个同学家到2个初始候车点位置的距离,将同学们的家分到距离更近的一组。 小明同学家到候车点1的距离为500米,到候车点2的距离为800米,则小明的 家被分到“候车点1”组。小华同学家到候车点1的距离为600米,到候车点2的距离为 200米,则小华同学家被分到“候车点2”组。 三 学一学 每次分配一个同学的家,候车点的位置就会自动移动。然后再重新计算每个同学的 家到新的候车点位置的距离,重新进行分组……直到达到某个预设的终止条件(譬如没 有同学的家被重新分配给另一个候车点,所有同学应该去哪个候车点都不再变化时)。 最终,K 均值聚类算法不仅可以为每个同学的家分配最合适的候车点,还可以计算出候车点最合适的位置! 三 学一学 从图中我们可以看到,紫色的坐标点是“候车点1”的地理位置,而被紫色虚线 圈出的6个同学的家,被分在了“候车点1”这一类中;而绿色的坐标点是“候车点2”的地 理位置,被绿色虚线圈出的5个同学的家,被分在了“候车点2”中。 通过这种方法,老师选取的候车点就可以满足所有同学的要求。 三 学一学 三 学一学 由于这类问题的决策流程类似一颗倒立的树,能够帮助我们记录决策过程的树状结 构,因此这种决策方法一般称为“决策树”,其中影响决策结果的因素叫做“特征”。决策树 是机器学习的一种典型算法,可以帮助我们训练计算机来解决现实生活中的分类的问题。 因此,我们就可以运用多层决策树来画出进入校园的决策过程啦。 在画决策树时,我们需要先分析一下数据的各个特征,从而确定特征的 ... ...