ID: 23598515

8.3列联表与独立性检验 课件(共23张PPT)-2024-2025学年高二下学期数学人教A版(2019)选择性必修第三册

日期:2025-11-16 科目:数学 类型:高中课件 查看:95次 大小:3250094B 来源:二一课件通
预览图 1/9
8.3列,第三,必修,选择性,2019,人教
  • cover
(课件网) 第八章 成对数据的统计分析 §8.1 成对数据的统计相关性 §8.2 一元线性回归模型及其应用 §8.3 列联表与独立性检验 8.3.1 分类变量与列联表 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题。 例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险等等。 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。 分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等。在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义。 【引例】为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 【分析】这是一个简单的统计问题。最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率。 那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异。由所给的数据 可知,该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。 上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法。用Ω表示该校全体学生构成的集合,这是我们所关心的对象的总体。考虑以Ω为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生 我们希望通过比较条件概率P(Y=1 | X=0)和P(Y=1 | X=1)回答上面的问题。按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1 | X=0),而该男生属于经常锻炼群体的概率是P(Y=1 | X=1)。 因此,“性别对体育锻炼的经常性没有影响”可以描述为 而“性别对体育锻炼的经常性有影响”可以描述为 为了清楚起见,我们用表格整理数据 性别 锻炼 合计 不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331 523 男生(X=1) 128 473 601 合计 320 804 1124 根据古典概型和条件概率的计算公式,我们有 在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。 X Y 合计 Y=0 Y=1 X=0 a b a+b X=1 c d c+d 合计 a+c b+d a+b+c+d 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存。我们将如上表这种形式的数据统计表称为2×2列联表。 2×2列联表给出了成对分类变量数据的交叉分类频数。 它包含了X和Y的如下信息:最后一行的前两个数分别是事件{ Y=0 }和{ Y=1 }中样本点的个数;最后一列的前两个数分别是事件{ X=0 }和{ X=1 }中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{ X=x,Y=y }(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。 8.3.2 独立性检验 X Y 合计 Y=0 Y=1 X=0 a b a+b X=1 c d c+d 合计 a+c b+d a+b+c+d 前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联。对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大。因此,需要找到一种更为合理的推断 ... ...

~~ 您好,已阅读到文档的结尾了 ~~