(
课件网) 5.3 数据的分析 必修一 《数据与计算》 从王者荣耀里学会数据分析 5.3 数据的分析 什么是数据分析? 数据分析是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。 高中信息技术必修1 数据与计算 5.3 数据的分析 李海青 水资源分布现状 过去旅游业的发展情况 了解事物的现状 诊断过去的发展历程 预测房价走向 预测未来的走向 数据分析 高中信息技术必修1 数据与计算 5.3 数据的分析 5.3.1 特征探索 数据特征探索的主要任务是对数据进行预处理 高中信息技术必修1 数据与计算 5.3 数据的分析 发现和处理缺失值、异常数据 绘制直方图 数据预处理 观察数据的分布特征 求最大值、最小值、极差等描述性统计量 5.3.1 特征探索 高中信息技术必修1 数据与计算 5.3 数据的分析 姓名 语文 数学 英语 小明 93 77 小王 898 90 85 小陈 59 78 75 缺失值 异常值 补全 修正 5.3.1 特征探索 李海青 高中信息技术必修1 数据与计算 5.3 数据的分析 [1]数据清洗,发现缺失值 把价格为零的数据变为空值 缺失值用64代替 5.3.1 特征探索 高中信息技术必修1 数据与计算 5.3 数据的分析 [2]异常值处理中,利用画散点图发现异常值部分 数据分布不均匀 评论数异常为>200000; 价格异常为>2300; 5.3.1 特征探索 高中信息技术必修1 数据与计算 5.3 数据的分析 line=len(data.values) col=len(data.values) da=data.values for i in range(0,line): for j in range(0,col): if (da[i][2]>2300): da[i][2]=“36” if (da[j][3]>200000): da[i][j]=“58” [3]处理异常数据,评论数异常为>200000;价格异常为>2300;再重新绘制散点图 数据分布均匀 评论数用58代替 价格用36代替 高中信息技术必修1 数据与计算 5.3 数据的分析 5.3.1 特征探索 [4]求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图 结论: 价格在10-30块之间的 商品种类最多 此价位的商品竞争最激烈 5.3.2 关联分析 高中信息技术必修1 数据与计算 5.3 数据的分析 关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。 指导 商品摆放 制定 促销策略 寻找 潜在用户 5.3.2 关联分析 李海青 高中信息技术必修1 数据与计算 5.3 数据的分析 典型案例:尿布与啤酒 5.3.2 关联分析 高中信息技术必修1 数据与计算 5.3 数据的分析 如何进行关联分析? 5.3.2 关联分析 高中信息技术必修1 数据与计算 5.3 数据的分析 如何进行关联分析? 序号 商品 1 可乐,鸡蛋,火腿 2 可乐,尿布,啤酒 3 可乐,尿布,啤酒,火腿 4 尿布,啤酒 5.3.2 关联分析 李海青 高中信息技术必修1 数据与计算 5.3 数据的分析 步骤一:扫描数据,建立项集,统计频率次数 C1项集 出现 频率次数 [可乐] [鸡蛋] [火腿] [尿布] [啤酒] 3 1 2 3 3 序号 商品 1 可乐,鸡蛋,火腿 2 可乐,尿布,啤酒 3 可乐,尿布,啤酒,火腿 4 尿布,啤酒 5.3.2 关联分析 高中信息技术必修1 数据与计算 5.3 数据的分析 步骤二:计算各个集合的支持度 序号 商品 1 可乐,鸡蛋,火腿 2 可乐,尿布,啤酒 3 可乐,尿布,啤酒,火腿 4 尿布,啤酒 C1项集 出现 频率次数 支持度 [可乐] 3 [鸡蛋] 1 [火腿] 2 [尿布] 3 [啤酒] 3 支持度= 3/4=0.75 1/4=0.25 2/4=0.5 3/4=0.75 3/4=0.75 5.3.2 关联分析 高中信息技术必修1 数据与计算 5.3 数据的分析 步骤三:设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L1 C1项集 出现 频率次数 支持度 [可乐] 3 0. ... ...