(
课件网) 8.3.1 分类变量与列联表 第八章 成对数据的统计分析 数学 1. 能通过具体实例说明一元线性回归模型修改的依据与方法. 2. 通过对具体问题的进一步分析,能将某些非线性回归问题转化为线性回归问题并加以解决,提高数学运算能力. 学习目标 3.能通过实例说明决定系数R2的意义和作用,提高数据分析能力. 课堂导入 有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语. 吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日 那么吸烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟引起的吗?如果你认为“健康问题不一定是由吸烟引起的,那么可以吸烟”的说法对吗 课堂导入 问题1:(1)前面所学的判断成对数据的关联性使用的是什么方法?体现了什么数学思想? (2)如果要判断吸烟与患肺癌之间的关联性,还能用上面的方法吗? 变量 数值变量 分类变量 例:人的身高;100米短跑所用时间;产品月销量 数值变量的取值为实数.其大小和运算都有实际含义. 两个数值变量之间的关系:回归分析法; 例:班级;性别;是否经常锻炼;是否每年体检 分类变量的取值可以用实数来表示; 这些数值只作为编号使用,用来表示不同的类别; 并没有通常的大小和运算意义 例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示 利用统计数据判断一对分类变量之间的关联性 课堂探究 问题2: 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 解法一:比较经常锻炼的学生在女生和男生中的比率 男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼. 课堂探究 问题2: 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 解法二:借助条件概率 性别 锻炼 合计 不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331 523 男生(X=1) 128 473 601 合计 320 804 1124 若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为 而该男生属于经常锻炼群体的概率为 性别对体育锻炼的经常性没有影响: 性别对体育锻炼的经常性有影响: 性别 锻炼 合计 不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331 523 男生(X=1) 128 473 601 合计 320 804 1124 课堂探究 根据条件概率的计算公式: 概念生成 2×2列联表 由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将下表这种形式的数据统计表称为 2×2 列联表 . X Y 合计 Y=0 Y=1 X=0 a b a+b X=1 c d c+d 合计 a+c b+d n=a+b+c+d 2×2列联表表示的意义 2×2 列联表给出了成对分类变量数据的交叉分类频数. 以上表为例,它包含了X 和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1} 中样本点的个数;最后一列的前两个数分别是事件{X=0} 和 {X=1} 中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y} (x,y=0,1) 中样本点的个数;右下角格中的数是样本空间中样 ... ...