(
课件网) 第11课决策树 --以选西瓜为例构建决策树 决策树算法是一种基于树形结构的决策分析方法,其原理是通过一系列的判断和决策过程,将数据集进行分类或回归预测。具体来说,决策树算法通过递归地将数据集划分为更小的子集,并在每个子集上应用决策规则,从而构建出一个树形结构。决策树算法是一种基于树形结构的决策分析方法,通过递归地将数据集划分为更小的子集,并在每个子集上应用决策规则,从而构建出一个树形结构。其原理在于选择合适的特征进行划分,并构建出准确可靠的决策树结构。 决策树算法的原理 决策树算法用途 分类问题:决策树算法常用于分类问题,如垃圾邮件识别、疾病诊断等。通过构建决策树模型,可以根据输入的特征将数据划分为不同的类别。 回归预测:除了分类问题,决策树算法也可以用于回归预测,如预测房价、股票价格等。通过构建决策树模型,可以根据输入的特征预测连续的输出值。 决策树算法用途 3.特征选择:决策树算法在特征选择方面也有很好的应用。通过计算特征的信息增益、增益率或基尼系数等指标,可以选择出对数据集分类或回归最有影响的特征。 4.数据挖掘:决策树算法可以用于数据挖掘中的关联规则挖掘,如购物篮分析等。通过构建决策树模型,可以发现不同商品之间的关联关系,为商业决策提供支持。 人工选瓜 根蒂 纹理 触感 新西瓜 输入 规律 结果 推测 输入 模型 结果 预测 知识 学习 数据 训练 人工选瓜与机器选瓜 新西瓜 收集数据 1 分析数据 2 训练算法 3 使用算法 4 软粘 清晰 硬挺 硬滑 模糊 硬挺 硬滑 模糊 蜷缩 软粘 稍糊 蜷缩 软粘 模糊 蜷缩 硬滑 清晰 蜷缩 软粘 清晰 蜷缩 软粘 清晰 蜷缩 硬滑 稍糊 蜷缩 硬滑 清晰 蜷缩 1 2 3 4 5 6 7 8 9 10 编号 1 2 3 4 5 6 7 8 9 10 根蒂 蜷缩 蜷缩 蜷缩 蜷缩 蜷缩 硬挺 硬挺 蜷缩 蜷缩 蜷缩 纹理 清晰 清晰 清晰 清晰 稍糊 清晰 模糊 模糊 稍糊 模糊 触感 硬滑 硬滑 软粘 软粘 硬滑 软粘 硬滑 硬滑 软粘 软粘 好瓜 是 是 是 是 是 否 否 否 否 否 好瓜 坏瓜 编号 1 2 3 4 5 6 7 8 9 10 根蒂 蜷缩 蜷缩 蜷缩 蜷缩 蜷缩 硬挺 硬挺 蜷缩 蜷缩 蜷缩 纹理 清晰 清晰 清晰 清晰 稍糊 清晰 模糊 模糊 稍糊 模糊 触感 硬滑 硬滑 软粘 软粘 硬滑 软粘 硬滑 硬滑 软粘 软粘 好瓜 是 是 是 是 是 否 否 否 否 否 属性 值 好瓜 坏瓜 根蒂 蜷缩 5 3 硬挺 0 2 纹理 清晰 4 1 稍糊 1 1 模糊 0 3 触感 硬滑 3 2 软粘 2 3 纯度 分类结果的差异程度 稍糊的纯度<清晰的纯度<模糊的纯度 属性 值 好瓜 坏瓜 信息熵 信息增益 根蒂 蜷缩 5 3 0.95 0.24 硬挺 0 2 0 纹理 清晰 4 1 0.72 0.44 稍糊 1 1 1 模糊 0 3 0 触感 硬滑 3 2 0.97 0.03 软粘 2 3 0.97 利用程序计算各属性的信息熵和信息增益 编号 1 2 3 4 5 6 7 8 9 10 根蒂 蜷缩 蜷缩 蜷缩 蜷缩 蜷缩 硬挺 硬挺 蜷缩 蜷缩 蜷缩 纹理 清晰 清晰 清晰 清晰 稍糊 清晰 模糊 模糊 稍糊 模糊 触感 硬滑 硬滑 软粘 软粘 硬滑 软粘 硬滑 硬滑 软粘 软粘 好瓜 是 是 是 是 是 否 否 否 否 否 编号 1 2 3 4 5 6 7 8 9 10 根蒂 蜷缩 蜷缩 蜷缩 蜷缩 蜷缩 硬挺 硬挺 蜷缩 蜷缩 蜷缩 纹理 清晰 清晰 清晰 清晰 稍糊 清晰 模糊 模糊 稍糊 模糊 触感 硬滑 硬滑 软粘 软粘 硬滑 软粘 硬滑 硬滑 软粘 软粘 好瓜 是 是 是 是 是 否 否 否 否 否 纹理 7,8,10 5,9 1,2,3,4,6 模糊 稍糊 清晰 1,2,3,4,6 编号 1 2 3 4 6 根蒂 蜷缩 蜷缩 蜷缩 蜷缩 硬挺 纹理 清晰 清晰 清晰 清晰 清晰 触感 硬滑 硬滑 软粘 软粘 软粘 好瓜 是 是 是 是 否 编号 1 2 3 4 5 6 7 8 9 10 根蒂 蜷缩 蜷缩 蜷缩 蜷缩 蜷缩 硬挺 硬挺 蜷缩 蜷缩 蜷缩 纹理 清晰 清晰 清晰 清晰 稍糊 清晰 模糊 ... ...