(
课件网) §1 第七章 案例统计 §2成对数据的线性相关性 2.1 相关系数 2.2成对数据的线性相关性分析 给定两个随机变量(X,Y)的7组成对数据:(1,0),(,),(0,1),(-,), (-1,0),(-,-),(0,-1),利用最小二乘法,可以得到Y关于X的线性回归方程为Y=0. 143X+0. 102.这时,X和Y是否具有线性关系呢? 情景导入 为了解决这个问题,我们引入(线性)相关系数的概念,通过计算两个随机变量间的(线性)相关系数,来判断它们之间线性相关程度的大小. 给定随机变量X和Y,由本章第1.2节可知,由3对数据(x1,y1),(x2,y2),(x3,y3)得到的Y关于X的线性回归方程为Y=+X. 由=-可知,(,)一定满足线性回归方程,从而有=+ ① 若X和Y的线性相关性好,则yi和+(i=l,2,3)的差应该不大,最理 想的状况应该是y1=+x1,y2=+x2,y3=+x3, ② 由①②式消去得:y1-=(x1-),y2-=(x2-),y3-=(x3-) ③. 记向量u= (x1-,x2-,x3-),v=(y1-,y2-,y3-),则③式可记为v=u. 这表明,线性回归方程最理想的状况是向量u,v共线(向量u,v的夹角为0或π).因此, 可以用向量u,v夹角的大小来刻画X和Y线性相关的程度. 记r=cos〈 u,v 〉== 显然|r|≤l.|r|值越接近1,说明X和Y的线性相关性越强;|r|值越接近0,说明X和Y的线性相关性越弱. 问题1:.我们如何才能寻找到这样一个合适的量来对样本数据的相关程度进行定量分析呢? [答案] 相关系数
. 问题2:.若样本系数
,则成对样本数据的相关程度如何? [答案]
,表明成对样本数据正线性相关程度很强. 问题3:.当
或
时,两个变量的相关性如何? [答案] 当
时,两个变量完全正相关;当
时,两个变量完全负相关. 问题4:.给定随机变量
和
的一组数据
,
,
,记向量
,
,若随机变量
和
具有线性关系,则线性回归方程最理想的状况是什么? [答案] 线性回归方程最理想的状况是向量
,
共线. 问题5:.能用
刻画
和
的线性相关程度吗?
和
共线时,
,
的值是多少? [答案] 能,
和
共线时,两向量的夹角为0或
. 相关系数 一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记r=cos〈 u,v 〉= == 称r为随机变量X和Y的样本(线性)相关系数. 为了计算的方便,我们再给出如下式子: 1.数据的标准化 在成对数据
,
,
,
中,把
,
,
和
,
,
,
分别标准化,得到
,
. 2.相关系数
, 也可以写成
. 显然,样本(线性)相关系数r的取值范围为[―1,1]. | r |值越接近1,随机变量之间的线性相关程度越强;| r |值越接近0,随机变量之间的线性相关程度越弱. 当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量正相关; 当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量负相关; 当r=0时,此时称两个随机变量线性不相关. 1.判断(正确的打“√”,错误的打“×”) (1)两个变量的相关系数,则两个变量正相关.( ) (2)两个变量的相关系数越大,它们的相关程度越强.( ) (3)若两个变量负相关,那么其回归直线的斜率为负.( ) (4)若 ,则说明成对样本数据间是函数关系.( ) (5)当一个变量的值增加时,另一个变量的值随之减少,则称这两个变量负相关.( ) (6)一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.( ) 及时巩固 √ × √ × × √ ... ...