(
课件网) 7.2成对数据的线性相关性 1、所求直线方程叫做回归直线方程; 相应的直线叫做回归直线。 2、对两个变量进行的线性分析叫做线性回归分析。 回归直线方程 温故知新 最小二乘法: 称为样本点的中心。 www. 温故知新 2、求回归直线方程的步骤: (3)代入公式 (4)写出直线方程为y=bx+a,即为所求的回归直线方程。 ^ 温故知新 我们知道,如果变量 y 是变量 x 的函数,那么由 x 就可以唯一确定 y. 然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度. 例如,人的体重与身高存在关系,但由一个人的身高并不能确定他的体重值. 那么,该如何刻画这两个变量之间的关系呢?下面我们就来研究这个问题. 引入新课 我们知道,一个人的体重与他的身高有关系. 一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小. 但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素. 像这样,两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系. 变量的相关关系 两个变量具有相关关系的事例在现实中大量存在. 例如: 1.子女身高 y 与父亲身高 x 之间的关系; 2.商品销售收入 y 与广告支出 x 之间的关系; 3.空气污染指数 y 与汽车保有量 x 之间的关系; 4.粮食亩产量 y 与施肥量 x 之间的关系. 对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断. “经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足. 因为在相关关系中,变量 y 的值不能随变量 x 的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系. 因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或判断. 思考1:在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示. 表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据. 编号 1 2 3 4 5 6 7 年龄/岁 23 27 39 41 45 49 50 脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 编号 8 9 10 11 12 13 14 年龄/岁 53 54 56 57 58 60 61 脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6 根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗? 为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征. 用横轴表示年龄, 纵轴表示脂肪含量,则上表中每个编 号下的成对样本数据都可用直角坐标 系中的点表示出来,由这些点组成了 下面的统计图,我们把这样的统计图 叫散点图. 观察图象可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄的增加,相应的脂肪含量值呈现增加的趋势. 这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系. 从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关. 根据图象,能够推断脂肪含量与年龄这两个变量正相关. 散点图是描述成对数据之间关系的一种直观方法. 观察图象,从中我们不仅可以大致看出脂肪含量和年龄呈现正相关,而且从整体上可以看出散点落在一条直线附近. 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 ... ...