(
课件网) 8.2.2 一元线性回归模型参数的 最小二乘估计(2) 对于响应变量Y,通过观测得到的数据为观测值,通过经验回归 方程得到的 称为预测值,观测值减去预测值称为残差,即 = y - 残差是随机误差的估计结果,通过对残差的分析可判断回归 模型刻画数据的效果, 以及判断原始数据中是否存在可疑数据等, 这方面的工作称为残差分析. 一元线性回归模型Y = bx + a + e 经验回归方程 = x + , b 探究新知 思考: 儿子身高与父亲身高的关系 , 运用残差分析所得的一元线性回归模型的 有效性吗? : 作图时纵坐标为残差, 横坐标可以选为样本编号, 或身高数据 或体重估计值等 ,这样作出的图形称为残差图 . 探究新知 从上面的残差图可以看出 , 残差有正有负 , 残差点比较均匀地分布在横 轴的两边 , 可以判断样本数据基本满足一元线性回归模型对于随机误差的假设. 所以 ,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假 设 ,从而判断回归模型拟合的有效性. 为了使数据更加直观 , 用父亲身高作为横坐标 , 残差作为 纵坐标 , 可以画出残差图 , 如下图所示: 探究新知 (1) (2) 图(3)说明残 差的方差不是 一个常数, 随 观测时间变大 而变大 追问:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随 机误差的假定? 图(2)显示残差 与观测时间有 非线性关系,应 在模型中加入 时间的非线性 函数部分; 图(4)的残差 比较均匀地集 中在以横轴为 对称轴的水平 图(1)显示残 差与观测时间 有线性关系, 应将时间变量 纳入模型; (3) (4) 探究新知 残差的性质: 1.残差等于观测值减预测值 = y - 2.残差的平方和越小越好; 3.原始数据中的可疑数据往往是残差绝对值过大的数据; 4. 对数据刻画效果比较好的残差图特征:残差点比较均匀的集 中在水平带状区域内 . 一般地, 建立经验回归方程后,通常需要对模型刻画数据的效 果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改 进模型作出更符合实际的预测与决策. 探究新知 1.关于残差图的描述错误的是( C ) A.残差图的横坐标可以是样本编号 B.残差图的横坐标也可以是解释变量或预报变量 C.残差点分布的带状区域的宽度越窄相关指数越小 D.残差点分布的带状区域的宽度越窄残差平方和越小 2.已知变量x,Y之间具有线性相关关系,其散点图如图所示, 则其经验回归方程可能为( B ) A. =1.5x+2 B. =-1.5x+2 C. =1.5x-2 D. =-1.5x-2 巩固练习 x 2 4 5 6 8 Y 30 40 60 50 70 已知Y关于x的经验回归方程为 =6.5x+17.5,则当广告支出费用 为5万元时,残差为 10 . 当x =5时, =6.5 × 5+17.5 =50,表格中对应y =60, ∴残差为60-50 =10. 3.某种产品的广告支出费用x(单位:万元)与销售额Y(单位: 万元)的 数据如表: 巩固练习 得到的经验回归方程为 = x + ,则( B ) A. > 0, > 0 B. > 0, < 0 C. < 0, > 0 D. < 0, < 0 b ^ b ^ b ^ b ^ b ^ x 2 3 4 5 6 Y 4 2.5 -0.5 -2 -3 (xi - x)2 = 17.5 i=1 = = -1.4 b ^ = x - y = 7.95 b 4.根据如下样本数据: 巩固练习 记录/s · · · · · 问题 人们常将男子短跑100m的高水平运动员称为 “百米飞人”.下表给出 了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这 些成对数据 , 建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程. 编号 1 2 3 4 5 6 7 8 年份 1896 1912 1921 1930 1936 1956 1960 1968 记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95 在左图中 , 散点看 上去大致分布在一条 直线附近 , 似乎可用 一元线性回归模型建 立经验回归方程. 以成对数据中的世界纪录产生年份为横坐标, 世界纪录为纵坐标作散点图, 12.0 11.5 11.0 10.5 1 ... ...