课件编号12620343

8.3.1 分类变量与列联表 课件(共18张PPT)

日期:2024-06-13 科目:数学 类型:高中课件 查看:37次 大小:1461185Byte 来源:二一课件通
预览图 1/7
8.3.1,分类,变量,列联,课件,18张
  • cover
(课件网) 8.3列联表与独立性检验 8.3.1 分类变量与列联表 回顾旧知 2.残差平方和: 3.最小二乘法 将 称为Y 关于x 的经验回归方程, 4.判断模型拟合的效果:残差分析 R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差. 1.线性回归模型y=bx+a+e含有随机误差e,其中x为解释变量,y响应变量 残差:yi-是随机误差的估计值 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义. 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题. 新课引入 如何利用统计数据判断一对分类变量之间是否具有关联性呢 对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法,我们先看下面的具体问题。 问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗 新课引入 这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设=, = 那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到=≈0.633, =. 由f1-f0 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点. 所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼. 新课引入 用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,分别令 ,, 我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1). “性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1); “性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1). 为了清楚起见,我们用表格整理数据 学习新知 我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有 由P(Y=1|X=1)>P(Y=1|X=0) 可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。 P(Y=1|X=0)==≈0.633 P(Y=1|X=1)==≈0.787 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2 ... ...

~~ 您好,已阅读到文档的结尾了 ~~