
课前准备: 课本、笔记本、草稿纸、笔 天道酬勤,勤能补拙! 8.1.2样本相关系数 形 数 活动:月考过后,有同学说自己以前基础差,所以这次考差了是可以理解的,大家怎么理解这位同学的话? 问题1:能否引入一个适当的类似期望与方差的数字特征,来度量样本数据的相关关系强弱? 即分析基础与现在成绩的关系 追问1:数据的中心在哪里? 追问2:数据中心化是否会影响数据的相关性 追问3:中心化的数据有什么特征?(形和数的角度) 追问4:基于我们的目标和中心化的前提,我们“创造”的数字特征该如何表达? 形的角度: 变量正相关时,中心化后的数据大多数在一、三象限 变量负相关时,中心化后的数据大多数在二、四象限 数的角度: 正相关,横纵坐标同号; 负相关,横纵坐标异号 大多数? 同异号? 累加 “同异号” “大多数” 平移 形 数 问题2:从计算角度思考式子中存在的局限性 容易受样本数据的度量单位影响! 在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米, 则相应的????????????将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变. ? 为了消除度量单位的影响,需要对数据作进一步的“标准化”处理. 称r为变量x和变量y的样本相关系数(Sample Correlation coefficient) “标准化” 形 数 Bug:Lxy的大小受数据的度量单位的影响,但单位的改变并不会导致两个变量之间相关程度的改变. r的正负:反映成对样本数据的变化趋势 变量x和变量y的样本相关系数: 问题3:r的取值范围是什么? 强 强 弱 弱 思考:若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-2x+1上,问这组样本数据的样本相关系数? 观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示, 故|r|越接近1时,线性相关程度越强; |r|越接近0时,线性相关程度越弱; 思考:若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-2x+1上,问这组样本数据的样本相关系数? 卡尔·皮尔逊,是英国数学家,生物统计学家,数理统计学的创立者,自由思想者,对生物统计学、气象学、社会达尔文主义理论和优生学做出了重大贡献。他被公认是旧派理学派和描述统计学派的代表人物,并被誉为现代统计科学的创立者。是20世纪科学革命和哲学革命的先驱,“批判学派”代表人物之一。 “统计是科学的语法” 追问:r=0是否反映成对数据没有关系? 活动:月考过后,有听到同学说自己以前基础差,所以这次考差了是可以理解的,大家认同这句话吗? {2D5ABB26-0587-4C30-8999-92F81FD0307C}各科不同阶段与中考成绩的样本相关系数 高一上 高二上 语文 0.56 0.71 数学 0.66 0.46 英语 0.81 0.47 活动:月考过后,有听到同学说自己以前基础差,所以这次考差了是可以理解的,大家认同这句话吗? 1.学科上来看,初中的英语对高中学习有较大影响,即初中英语好的同学,大概率高中入学英语也不错。 2.从不同年段角度分析,数学与英语学科随着高中学习时间的增加,高中成绩的好坏与初中基础的相关程度降低。 天道酬勤,勤能补拙 = 作业: 1.完成分层作业 2.思考本节课你感到最难的内容是什么?我们是怎么突破的? 3.尝试证明下式: 4.周末尝试借助EXCEL分析其他学科的成绩数据,并总结收获 思考:本节课你感到最难的内容是什么?我们是怎么突破的? = 作业: 1.完成分层作业 2.尝试证明下式: 3.周末尝试借助EXCEL分析其他学科的成绩数据,并总结收获 回顾:期望与方差的反映了数据怎样的数字特征 均值反映了随机变量取值的平均水平. 即反映随机变量变量分布的中心趋势 方差与标准差反映随机变量取值的离散程度 注:方差与标准差的单位不同,后者与数据单位一致 ... ...
~~ 您好,已阅读到文档的结尾了 ~~