(
课件网) 高中信息技术 必修一 数据与计算 第 三 章 数据处理与应用 第2节 数据分析与可视化 课 堂 导 入 数据分析是指使用适当的分析方法对采集和整理后的数据加以 详细研究,提取有用的信息和形成概括总结的过程。我们通常运用统 计方法,对数据进行定性与定量的分析,然后借助可视化工具,直观清 晰地呈现信息,并把信息的特征形象地传递给人们。 一、数据分析 为了从数据中获取有价值的信息,对数据进行采集和整理后,还需要选用适当的方法与工具对数据进行分析。通过数据分析,可以描述事物的现状,发现相关要素的关系,并对事物的发展趋势做出相应 的预测。 1. 数据分析基本方法 2. 数据分析常用工具 (1) 电子表格软件 图 3.17 电子表格 软件应用界面示例 (2) 在线数据分析平台 图 3.18 在线数据分析平台示例 (3) 数据分析语言 Python语言 R语言 MATLAB语言 在对数据进行分析时,Python语言具有较强的网络数据获取优势,还可调用丰富的工具库。例如,Numpy库中的sum()、mean()、 min()、max()和Pandas库中的value_counts()等都是可以用于统计的函数。 R语言和 MATLAB语言依靠其独特的功能在相关专业领 域使 用 得 更 为 广 泛。例 如,R 语 言 在 统 计 学 领 域 使 用 较 多 R语言和 MATLAB语言依靠其独特的功能在相关专业领 域使 用 得 更 为 广 泛。例 如,MATLAB语言则在工程计算等领域更受欢迎。 二、数据可视化 1. 数据可视化的基本工具 电子表格软件中的图表功能可以 基于选定的数据,用柱形图、折线图、饼图等方式呈现出来。创建图表 后,可以通过修改数据标记、图例、标题、文字等来美化图表或强调某些信息,也可以用图案、颜色、对齐方式、字体及其他格式属性来对图 表进行设置。 电子表格软件的数据可视化过程直观、易用,但是对于大量数据可视化的实现就比较困难了。 当数据量较大时,可以使用编程语言对这些数据进行可视化。 Python语言中,Matplotlib是一种应用较广的绘图工具包,使用其中 的pyplot子库所提供的函数可以快速绘制图形,并能使用标签进行修 饰,从而制作出高质量的数据分析图。 Python语言中,引入 Matplotlib的pyplot子库的语法为: pyplot绘制图形有一个基本流程: 创建画布与创建子图 添加画布内容 保存与显示图形 表 3.8 pyplot中创建画布以及创建并选中子图的常用函数 表 3.9 pyplot中添加各类标签和图例的常用函数 表 3.10 pyplot中保存和显示图形的常用函数 图 3.21 绘制不含子图的 图形 2. 常用的数据分析图 (1) 分析特征间的关系 散点图和折线图是数据分析最常用的两种图形。这两种图形都能够分析不同数值型特征间的关系。其中,散点图主要用于分析特征 间的相关关系,折线图则用于分析自变量特征和因变量特征之间的趋 势关系。 散点图(scatterdiagram)又称为散点分布图,是以一个特征为横坐标,以另一个特征为纵坐标,利用坐标点(散点)的分布形态反 映特征间统计关系的一种图形。散点图中,值由点在图中的位置 表示。 图 3.22 绘制简单的散点图 图 3.23 绘制折线图 (2) 分析特征内部数据分布与分散状态 柱状图、饼图和箱形图是数据分析常用的另外三种图形,主要用 于分析数据内部的分布状态与分散状态。柱状图主要用于查看各分组数据的数量分布以及各分组数据之间的数量比较。饼图倾向于查 看各分组数据在总数据中的占比。箱形图的主要作用是发现整体数 据的分布、分散情况。 图 3.24 绘制柱状图 项 目 实 践 共享单车的精准投放和及时调配至今依然是共享单车经营企业所面临的难题。围绕“近三年共享单 车租赁量变化”“用户骑行半径分布”“各站点用户租赁量比较”等特征,对本章第一节“一、数据采集”的项 目实践中的数据进行可视化呈现,为 ... ...