(
课件网) 5.3.2 关联分析 《数据与计算》P113-118 数据的特征探索 系统日志采集法 网络数据采集法(网络爬虫) 其他数据采集法 数据分析的步骤 1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。 2.常见案例: 价格和年龄之间的关系:个性化推荐 购买相关商品之间的关系:捆绑销售 3.常用的算法:aprior算法(关联规则挖掘算法) 一、关联分析 2.常见案例:捆绑销售 一、关联分析 3.关联分析的基本算法及流程图 扫描数据,并统计数据出现的频率次数 构建候选项集C1 计算支持度:数据出现的频率次数/总数 形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度 连接频繁项集L1,生成候选项集C2 重复步骤③-⑤,得到最大的频繁项集 一、关联分析 扫描数据库,统计数据出现的频率次数 构建候选项集Cn 支持度>最小支持度 形成频繁项集Ln 开始 结束 是 否 计算支持度:频率次数/总数 构建候选项集Cn+1 Aprioir-Gen运算 扫描数据库 统计数据出现的频率次数 4.案例分析 一、关联分析 原始数据集: [面包,牛奶], [面包,尿布,啤酒,鸡蛋] [牛奶,尿布,啤酒,可乐] [面包,牛奶,尿布,啤酒] [面包,牛奶,尿布,可乐] 扫描数据库,统计每种食物出现的次数 候选项集C1 食物 数目 牛奶 4 面包 4 尿布 4 啤酒 3 鸡蛋 1 可乐 2 4.案例分析 一、关联分析 支持度大于2的频繁项集L1 候选项集C1 食物 数目 牛奶 4 面包 4 尿布 4 啤酒 3 鸡蛋 1 可乐 2 频繁项集L1 食物 数目 牛奶 4 面包 4 尿布 4 啤酒 3 候选项集C2 食物组合 牛奶、面包 牛奶、尿布 牛奶、啤酒 面包、尿布 面包、啤酒 尿布、啤酒 根据算法, 生成候选项集C2 4.案例分析 一、关联分析 原始数据集: [面包,牛奶], [面包,尿布,啤酒,鸡蛋] [牛奶,尿布,啤酒,可乐] [面包,牛奶,尿布,啤酒] [面包,牛奶,尿布,可乐] 扫描数据库,统计候选项集C2食物组合出现的次数 候选项集C2 食物组合 [牛奶、面包] [牛奶、尿布] [牛奶、啤酒] [面包、尿布] [面包、啤酒] [尿布、啤酒] 候选项集C2 食物组合 数目 [牛奶、面包] 3 [牛奶、尿布] 3 [牛奶、啤酒] 2 [面包、尿布] 3 [面包、啤酒] 2 [尿布、啤酒] 3 4.案例分析 一、关联分析 候选项集C2 食物组合 数目 [牛奶、面包] 3 [牛奶、尿布] 3 [牛奶、啤酒] 2 [面包、尿布] 3 [面包、啤酒] 2 [尿布、啤酒] 3 支持度大于2的 频繁项集L2 频繁项集L2 食物组合 数目 [牛奶、面包] 3 [牛奶、尿布] 3 [面包、尿布] 3 [尿布、啤酒] 3 候选项集C3 食物组合 [牛奶、面包、尿布] [牛奶、面包、啤酒] [牛奶、尿布、啤酒] [面包、尿布、啤酒] 根据算法, 生成候选项集C3 4.案例分析 一、关联分析 根据算法, 生成候选项集C3 候选项集C3 食物组合 [牛奶、面包、尿布] [牛奶、面包、啤酒] [牛奶、尿布、啤酒] [面包、尿布、啤酒] 候选项集C3 食物组合 数目 [牛奶、面包、尿布] 2 [牛奶、面包、啤酒] 1 [牛奶、尿布、啤酒] 2 [面包、尿布、啤酒] 2 原始数据集: [面包,牛奶], [面包,尿布,啤酒,鸡蛋] [牛奶,尿布,啤酒,可乐] [面包,牛奶,尿布,啤酒] [面包,牛奶,尿布,可乐] 扫描数据库,统计候选项集C3食物组合出现的次数 4.案例分析 一、关联分析 候选项集C3 食物组合 数目 [牛奶、面包、尿布] 2 [牛奶、尿布、啤酒] 1 [牛奶、尿布、啤酒] 2 [面包、尿布、啤酒] 2 根据计算和筛选,得到最终的频繁项集 最终的频繁项集 食物组合 [牛奶、面包、尿布] 原始数据集: [面包,牛奶], [面包,尿布,啤酒,鸡蛋] [牛奶,尿布,啤酒,可乐] [面包,牛奶,尿布,啤酒] [面包,牛奶,尿布,可乐] 4.案例分析 support(支持度 ... ...