课件编号15234184

5.3 数据的分析 课件 2022-2023学年粤教版(2019)高中信息技术必修1(48张PPT)

日期:2024-04-29 科目:信息技术 类型:高中素材 查看:79次 大小:9048244Byte 来源:二一课件通
预览图 0
2019,48张,必修,信息技术,高中,数据
    (课件网) BIG DATA 5.3 数据的分析 第五章 SHU · JU · DE · CAI · JI ” 授课人:XXX 知识回顾 新授 处理数据的一般过程: 数据采集 数据分析 数据可视化表达 新授 处理数据的一般过程: 数据采集 数据分析 数据可视化表达 特征探索 关联分析 聚类分析 数据分类 运用数字化工具和技术 探索数据内在的结构和规律 诊断过去、预测未来 什么是数据分析 数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。 什么是数据分析 数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。 运用数字化工具和技术 探索数据内在的结构和规律 诊断过去、预测未来 ONE 特征探索 01 对数据进行预处理 发现和处理缺失值、异常数据 特征探索 数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。 特征探索 数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。 对数据进行预处理 发现和处理缺失值、异常数据 补全 特征探索 学号 体温(℃) 001 36.9 002 003 37.3 004 47.6 005 37.2 缺失 异常 请观察表格,其中的数据存在哪些问题?需要做哪些处理? 修正 特征探索 学号 体温(℃) 001 36.9 002 003 37.3 004 47.6 005 37.2 缺失 异常 请观察表格,其中的数据存在哪些问题?需要做哪些处理? 补全 特征探索 学号 体温(℃) 001 36.9 002 003 37.3 004 47.6 005 37.2 缺失 异常 请观察表格,其中的数据存在哪些问题?需要做哪些处理? 补全 修正 特征探索 学号 体温(℃) 001 36.9 002 003 37.3 004 005 37.2 请观察表格,其中的数据存在哪些问题?需要做哪些处理? 37.1 37.1 取平均值 特征探索 散点图 发现异常值 观察数据的分布情况 特征探索 直方图 观察数据的分布特征 特征探索 特征探索的步骤: 数据清洗 绘制散点图 计算数据分布特征 绘制直方图 处理缺失值 处理异常值 TWO 关联分析 02 发现数据之间的关联性 同时出现的规律 关联分析 关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。 关联分析 关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。 发现数据之间的关联性 事物同时出现的规律 对数据进行预处理 发现和处理缺失值、异常数据 关联分析 典型应用:购物篮分析 指导 商品摆放 01 制定 促销策略 02 寻找 潜在用户 03 对数据进行预处理 发现和处理缺失值、异常数据 关联分析 例:尿布与啤酒 对数据进行预处理 发现和处理缺失值、异常数据 关联分析 如何进行关联分析? 序号 商品 1 可乐,鸡蛋,火腿 2 可乐,尿布,啤酒 3 可乐,尿布,啤酒,火腿 4 尿布,啤酒 对数据进行预处理 发现和处理缺失值、异常数据 关联分析 步骤一:扫描数据,建立项集,统计频率次数 序号 商品 1 可乐,鸡蛋,火腿 2 可乐,尿布,啤酒 3 可乐,尿布,啤酒,火腿 4 尿布,啤酒 C1项集 出现 频率次数 [可乐] [鸡蛋] [火腿] [尿布] [啤酒] 3 1 2 3 3 关联分析 步骤二:计算各个集合的支持度 序号 商品 1 可乐,鸡蛋,火腿 2 可乐,尿布,啤酒 3 可乐,尿布,啤 ... ...

    ~~ 您好,已阅读到文档的结尾了 ~~