课件编号19652129

第五章《数据处理和可视化表达》第3课时《数据的分析》 课件(共21张PPT) 2023—2024学年粤教版(2019)高中信息技术必修1

日期:2024-05-16 科目:信息技术 类型:高中课件 查看:80次 大小:3140176Byte 来源:二一课件通
预览图 1/9
第五,必修,信息技术,高中,2019,教版
  • cover
(课件网) 项目回顾 项目:典型城市空气质量变化研究 认识大数据 数据的采集 情境导入 你能快速地从以下图片中获得有用的信息吗? 你能发现这些数据的内在结构和规律呢? 数据分析 特征探索索 关联分析 聚类分析 数据分类 词频分析 数据分析就是在一大批杂乱 无章的数据中,运用数字化工 具和技术,探索数据内在的结 构和规律,建构数学模型,并 进行可视化表达,通过验证将 模型转化为知识,为诊断过去 和预测未来发挥作用。 数据分析 上节课,我们采集到了 2016~2021年的日空气质量指 数,通过每日空气质量指数很 难说明问题,因此我们需要计 算年平均空气质量指数,再通 过对比才能发现空气质量是不 是逐年变好。 数据分析 特征探索 数据的特征探索的主要任务是对数据进行预处理,发现和处 理缺失值,异常数据,绘制直方图,观察数据的分布特征,求 最大值、最小值、极差等描述性统计量。 数据预处理 特征探索 特征值探索 数据预处理 数据预处理没有标准的流程, 通常会根据任务和数据集属性的 不同而有所差别。 请同学们观察图片,你发现 图片中存在什么问题? 本次数据预处理主要介绍去重 复值和处理缺失值。 数据预处理 1、pandas 库 Pandas库提供了快速便捷操作大型数据集的工具、函数和方 法。其中包括读写多种文件数据的函数和方法,以及处理一位数 组、二维数组等类似表格数据的函数和方法。 2、math 库 math是Python提供的内置数学类函数库。 数据预处理 #1、读取原文件 #2、去除重复行,保留第一行 #3、保存目标文件 数据预处理 #1、读取原文件 #2、对列表中每一项进行判断 #若为空值,则替换为其他值 #3、保存目标文件 特征值探索 特征值探索 #读取文件,获取年份 #新表格列标题 # mean()函数逐年求平均值 # 添加到列表data中 #保存文件 课堂活动 请各小组参照老师文件中的学习任务单,根据 所选城市完成相应活动。 活动一:数据预处理 活动二:特征值探索。 展示 展示运行的结果 活动一:体验数据预处理 程序运后文件夹中多了哪两个文件:_____ 对比这两个文件中的数据与原始数据的区别是:_____ 活动二:体验特征值探索 程序运后文件夹中多了哪一个文件:_____ 通过这个文件内容说明空气质量发生什么变化:_____ 展示 展示运行的结果 合肥 杭州 太原 拓展 当我们采集的是数值型数据时 我们可以通过特征探索来发现数据 内在规律,但是我们的数据类型不 仅仅是数值型。当我们采集的数据 是文本数据是应该怎么分析呢? 拓展 词频分析 词频分析是对文章正文中重要词汇出现的次数进行统计与分 析,是文本挖掘的重要手段。 1、读取文本文件 2、利用jieba库进行分词 3、生成词云图 4、保存为指定图片文件 拓展 请同学们完成学习任务单中拓展活动:体验词频分析 观察两份文件生成的词云图有什么区别,为什么: _____ 拓展 观察两份文件生成的词云图有什么区别,为什么: 课堂小结 ... ...

~~ 您好,已阅读到文档的结尾了 ~~