(
课件网) 8.3.1 分类变量与列联表 1. 通过实例,理解2×2列联表的统计意义(数学抽象). 2. 理解判断两个分类变量是否有关系的常用方法(数据分析). 课标要求 有关医学研究表明,许多疾病,如心脏病、癌症、脑血管病、慢性阻塞性 肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为 此,联合国固定每年5月31日为世界无烟日.那么这些疾病与吸烟有怎样的 关系呢? 情境导入 知识点一 数值变量与分类变量 01 知识点二 2×2列联表 02 知识点三 等高堆积条形图 03 课时作业 04 目录 知识点一 数值变量与分类变量 01 PART 问题1 下列变量:人的身高,直尺的长度,民族有什么不同? 提示:人的身高,直尺的长度都是数值变量;民族有汉族,回族等 “值”,不同“值”表示个体所属的不同类别. 【知识梳理】 1. 数值变量:数值变量的取值为实数,其大小和运算都有实际含义. 2. 分类变量:为了表述方便,经常会使用一种特殊的随机变量,以区别不 同的 或 ,这类随机变量称为分类变量. 提醒:分类变量的取值可以用实数来表示,例如男性,女性可以用 1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并 没有大小和运算意义.分类变量是相对于数值变量来说的. 现象 性质 【例1】 〔多选〕下列是分类变量的是( ACD ) A. 近视 B. 成绩 C. 血压 D. 饮酒 解析: 近视有近视与不近视两种类别,血压有异常、正常两种类别,饮 酒有饮酒与不饮酒两种类别.成绩不是分类变量,它的取值不一定有两种. ACD 【规律方法】 1. 数值变量的取值为实数,其大小和运算都有实际含义. 2. 分类变量是用随机变量区别不同的现象或性质,分类变量的取值可以用 实数表示,变量的不同“值”表示个体所属的不同类别,没有大小和运算 意义. 训练1 〔多选〕下列变量中属于分类变量的是( ACD ) A. 性别 B. 某医院逐年的就诊人数 C. 宗教信仰 D. 某药物的疗效 解析: 性别有男、女之分,宗教信仰有某一宗教的信仰、不信仰之分, 某药物的疗效有无效、有效之分;B项中,某医院逐年的就诊人数为数值 变量. ACD 知识点二 2×2列联表 02 PART 问题2 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,其中,不吸烟的7 817人中有42人患肺癌,吸烟的2 148人中有49人 患肺癌,试分析吸烟是否对患肺癌有影响. 我们在研究“吸烟与患肺癌的关系”时,需要关注哪些量呢?请补全表 格,并完成问题(1)(2). 吸烟 肺癌 合计 非肺癌患者 肺癌患者 非吸烟者 42 7 817 吸烟者 49 2 148 合计 9 965 (1)在非吸烟者中患肺癌的比例为 ; (2)在吸烟者中患肺癌的比例为 . 提示:吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数; 不吸烟不患肺癌的人数. 吸烟 肺癌 合计 非肺癌患者 肺癌患者 非吸烟者 7 775 42 7 817 吸烟者 2 099 49 2 148 合计 9 874 91 9 965 (1)0.54% (2)2.28% 说明:吸烟者和非吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能 性大. 【知识梳理】 1. 列联表定义:观测数据按两个或更多属性进行交叉分类时所列出的频数 表,称为列联表. 2.2×2列联表:定义一对分类变量X和Y如下:X= 和Y= 其样 本频数列联表(称为2×2列联表)为: X Y 合计 Y=0 Y=1 X=0 a b a+b X=1 c d c+d 合计 a+c b+d n=a+ b+c+d 上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个 数分别是事件{Y=0}和{Y=1}的 ;最后一列的前两个数分别是 事件{X=0}和{X=1}的频数;中间的四个格中的数a,b,c,d是事件 {X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是 . 频数 样本容 量 【例2】 ... ...