(
课件网) 第6章 数据挖掘 本章主要内容如下。 (1)数据挖掘的概念。 (2)数据挖掘常用的技术与工具。 6.1 什么是数据挖掘 数据挖掘(Data Mining,DM)又被称为数据库中的知识发现(Knowledge Discovery from DataBase,KDD),是指从大量数据中提取隐含的、先前未知的、有价值的知识和规则。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统较前沿的研究方向之一。 图6-1 知识挖掘的过程 图6-2所示为一个典型的数据挖掘系统,主要包括如下组件。 图6-2 一个典型的数据挖掘系统 作为一个应用驱动的领域,数据挖掘有机结合了多学科技术,其中包括高性能计算、机器学习、数据库、统计学、可视化等许多应用领域的大量技术,如图6-3所示。这些技术都促进了数据挖掘技术的发展。 图6-3 数据挖掘用到的技术 6.2 数据挖掘的对象与价值 数据仓库一般用多维数据库结构建模,每个维度对应一组属性。数据集市是数据仓库的一个子集。 图6-4 数据仓库示例 图6-5 数据挖掘的数据类型 1.技术价值 数据挖掘与数学、统计学、计算机学、算法等基本理论知识无法分割。数据挖掘技术水平的突飞猛进也给基础学科领域带来最直接的跃进。数据挖掘不仅创造了新的计算方式、技术处理方式,更为其他技术的研发、应用和落地提供基础,如人工智能等。 大数据“三重门”理论的“交易门”是数据挖掘技术价值的核心映射。 “交易门”即客户与企业之间的交易数据,是一种“事后”数据。“交易门”数据是企业的核心数据,是与客户沟通、获得有效分析数据的重要数据来源,无论大数据采集技术如何发展,直接的交易数据永远都是第一有效和最值得关注的。(
课件网) 第6章 数据挖掘 本章主要内容如下。 (1)数据挖掘的概念。 (2)数据挖掘常用的技术与工具。 6.3 数据挖掘常用的技术 图6-6 一份购物清单 定义一个规则“牛肉->鸡肉”,在t1~t7位顾客中,同时购买牛肉和鸡肉的顾客比例为3/7,而购买牛肉的顾客中也购买了鸡肉的顾客比例是3/4。这两个比例参数在关联规则中被称作支持度(support)和置信度(confidence),是最重要的两个衡量指标。 对于规则“牛肉->鸡肉”,支持度为3/7,表示在所有顾客中有3/7同时购买牛肉和鸡肉,反映了同时购买牛肉和鸡肉的顾客在所有顾客中的覆盖范围;置信度为3/4,表示在买了牛肉的顾客中有3/4的人买了鸡肉,反映了可预测的程度,即顾客购买了牛肉的同时,购买鸡肉的可能性有多大。 从统计学的角度看,这是一个概率问题,“顾客买了牛肉之后购买鸡肉的可能性”是一个条件概率事件,从集合的角度(见图6-7)可以很好地描述这个问题。S表示所有的顾客,A表示购买牛肉的顾客,B表示购买鸡肉的顾客,C表示既买了牛肉又买了鸡肉的顾客,那么C.count/S.count= 3/7,C.count/A.count=3/4。 图6-7 从集合角度看待关联规则 结合以上例子,在数据挖掘中,有如下定义。 (1)事务:一条交易被称为一个事务,如每位顾客一次购买的商品集合t1~t7。 (2)项:交易的每一个物品被称为一个项,如鸡肉、牛肉。 (3)项集:包含零个或多个项的集合被称为项集,如{牛肉,鸡肉,衣服} 。 (4)k-项集:包含k个项的项集被称为k-项集,如{牛肉}叫作1-项集,{牛肉,鸡肉}叫作2-项集。 (5)支持度计数:一个项集出现在多少个事务中,它的支持度计数就是多少。例如,{牛肉}出现在t1、t2、t4、t5这4个事务中,那么它的支持度计数为4。 (6)支持度:支持度为支持度计数除以总的事务数。例如:以上总的事务数为7,{牛肉}的支持度计数为4,那么,{牛肉}的支持度是4/7,说明4/7的人购买牛肉。 (7)频繁项集:支持度 ... ...