(
课件网) 1. 相关系数 一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r= = ,称r为随机变量X和Y的样本(线性)相关系数. 2.相关系数r的特征 (1)样本(线性)相关系数r的取值范围为[-1,1]. (2)|r|值越接近1,随机变量之间的线性相关程度越强;|r|值越接近0,随机变量之间的线性相关 程度越弱. §2 成对数据的线性相关性 知识 清单破 知识点 相关系数 (3)当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量正相关; 当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量负相关; 当r=0时,此时称两个随机变量线性不相关. 知识辨析 判断正误,正确的画“√”,错误的画“ ”. 1.相关关系是一种非确定性关系. ( ) 2.当r=0时,两个随机变量没有任何关系. ( ) 3.若r1=-0.95,r2=0.85,则体现两个随机变量线性相关程度较强的是r2. ( ) 4.当变量x的取值为3,4,5,6,7时,变量y对应的值依次为4.0,2.5,-0.5,-1,-2,则可知变量x和y负相 关. ( ) √ √ 提示 提示 当r=0时,只表明两个随机变量没有线性关系,但不排除它们之间有其他关系. |r|值越接近1,随机变量之间的线性相关程度越强,所以体现两个随机变量线性相关程度 较强的是r1. 1.利用散点图判断两个随机变量的相关性 (1)一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一、第三象 限内,对应的成对数据同号的居多;如果变量x和y负相关,那么关于均值平移后的大多数散点 将分布在第二、第四象限内,对应的成对数据异号的居多. (2)如果散点落在一条直线附近,则认为这两个变量线性相关. 2.利用相关系数判断两个随机变量的相关程度 相关系数r是从数值上来判断变量间的线性相关程度的,是定量分析.|r|刻画了样本点集 中于某条直线的程度. |r|值越接近1,散点图中的样本点分布越接近一条直线,两个变量的线性相关程度越强. 讲解分析 疑难 情境破 疑难 1 两个随机变量相关性的判断 典例 某农科所对冬季昼夜温差(最高温度与最低温度的差)大小与某反季节大豆新品种一天 内发芽数之间的关系进行了分析研究,他们分别记录了12月1日至12月6日每天昼夜的最高、 最低温度(如图甲),以及实验室每天每100颗种子中的发芽数情况(如图乙). 图甲 图乙 (1)请画出发芽数y与温差x的散点图; (2)判断两个变量是否线性相关,计算相关系数,并刻画它们的相关程度. 参考数据: 参考公式:相关系数r= (当|r|>0.75时,认为两个变量的线性相关程度较强). 解析 (1)散点图如图所示. (2)r= ≈ ≈0.952. 由相关系数r≈0.952>0.75,可以推断发芽数与温差这两个变量正相关,且线性相关程度较强. 规律总结 判断两个变量之间的线性相关程度一般用散点图,但在作图中,由于存在误差,有 时很难判断这些点是否分布在一条直线附近,此时可以利用相关系数r来判断.相关系数是从 数值上来判断变量间的相关程度的,是定量分析,比用散点图(定性分析)要精细得多. 有时根据所测量的数据作出两个随机变量的散点图后,发现这些散点并非分布在某一条直线 附近,而是在某一条曲线附近,此时,我们需要根据曲线的形状,选择适当的函数模型来拟合,再 通过变量代换,利用线性回归模型得到两个变量间的非线性回归方程.常见的非线性回归模 型如下: 讲解分析 疑难 2 非线性相关问题 函数模型 函数图象 变换公式 变换后的线性函数 Y=aXb (幂函数曲线) c=ln a, v=ln X, u=ln Y u=c+bv Y=aebX (指数曲线) c=ln a, u=ln Y u=c+bX Y=a (倒指数曲线) c=ln a, v= , u=ln Y u=c+bv Y=a+bln X (对数曲线) v=ln X Y=a+bv 典例 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费X(单位:万元)对年销售 量Y(单位:t)和年利润z(单位:万元)的影响,对近8年的年 ... ...