
6.5 数学建模案例(三):人数估计 【学习目标】 了解数据分析的意义,了解统计分析报告的主要组成部分,会选择合适的方法分析,解决实际问题,会从实际问题的样本数据中提取刻画其特征的量(如中位数、均值、方差等).(数学建模、数据分析) 【合作探究】 一、问题背景 某大学计算机专业的报考人数连年创新高,今年报名刚结束,某考生想知道报考人数.考生的编号按0001,0002,…的顺序从小到大依次排列,该考生随机了解了50个考生的编号.具体如下: 0400 0904 0747 0090 0636 0714 0017 0432 0403 0276 0986 0804 0697 0419 0735 0278 0358 0434 0946 0123 0647 0349 0105 0186 0079 0435 0960 0543 0495 0974 0219 0380 0397 0283 0504 0140 0518 0966 0559 0910 0658 0442 0694 0065 0757 0702 0498 0156 0225 0327 请给出一种方法,根据这50个随机抽取的编号,估计考生总数. 二、问题解析 上述问题中,总体中的个体已经按自然数编号,然后在自然数1,2,3,…,N中不放回地随机抽取n(这里n=50)个数,将抽取的样本从小到大排序后记为x1,x2,…,xn,其中1≤xn≤N.一般来说,关于考生总数没有精确的估计方法,若不能获取其他辅助信息,则只能利用样本估计总体的方法进行近似估计. 为使估计值尽量接近真值,可以在多种假设的条件下采用不同的估计方法来建立数学模型并求解. 1.模型建立与求解 模型1 用样本最大值估计总体的最大值 用给出数据的最大值=xn(例如,986)来估计考生总数,由于xn≤N恒成立,因此,该方法在实际应用中很可能出现低估N的情况. 模型2 用样本中位数估计总体中位数 当n为奇数时,样本的中位数为,而总体的中位数取,由于样本中位数可以近似看成总体中位数,因而有≈,故可取=2-1作为N的估计值; 当n为偶数时,样本的中位数为,从而有≈,故可取=+-1作为N的估计值. 为了避免用这种方法得到的估计值偏小,可以考虑用下面的方法对考生总数N进行调整: = 在本问题中,n=50且x50>x25+x26-1,因此可用986来估计考生总数. 一般情况下,样本点越多,估计值会越合理.而上述方法的求解过程并没有利用已获得的全部样本信息,因此我们需要建立更为合理的数学模型. 模型3 用样本的平均值估计总体的平均值 假设随机抽取的50个数的平均值近似等于所有考生的平均值,以此来估计考生总数N.由于这50个数的算术平均值为24572÷50=491.44,它应该与接近,因此取=491.44×2≈983作为N的估计值.由于983小于样本的最大值986,因此可用986来估计考生总数. 模型4 用分区间法求解 把这50个样本从小到大排列,利用它将N个数据分段,选取不同端点得到不同的估计值. 分区间的一种方法是:利用50个样本数据,将区间[1,N]分成51个小区间[1,x1),[x1,x2),…,[x50,N].这51个小区间长度均值为,而前50个区间的平均长度为,由于样本是随机抽取的,可以认为≈,所以N的估计值可取为==1006,其中{x}表示不小于x的最小整数. 上述分区间的方法忽略了x50可能取到N的情况,因此,我们也可以将区间[1,N]改为[1,N+1],即把[1,N+1]分成51个小区间[1,x1),[x1,x2),…,[x50,N+1],取≈,所以N的估计值可取为==1005. 2.模型的进一步讨论 前面我们采用不同的方法对考生总数进行了估计,发现估计方法不同得到的考生数量也不同,存在一定的差异.而分区间法由于划分小区间所采用的分段方式不同,也有可能得到不同的估计值.但这些结果都是在某种合理的假设前提下得到的,不能说哪种方法得到的估计值一定是错的.这也体现了统计方法的特点. 按照不同的估计方法往往会得到不同的估计值,那么有没有评价估计方法优劣的标准呢 我们可以利用计算机模拟各种估计方法,然后通过计算估计值与真值之间的偏离程度来评价估计方法的优劣. 具体实施步骤如下. 步骤(1):设定N以及试验次数k的值; 步骤(2):在1,2, ... ...
~~ 您好,已阅读到文档的结尾了 ~~