北大附中高考数学专题复习概率与统计经点答疑三.docx

文档编号：9479970
上传时间：2023-05-19
格式：DOCX
页数：16
大小：246.55KB

《北大附中高考数学专题复习概率与统计经点答疑三.docx》由会员分享，可在线阅读，更多相关《北大附中高考数学专题复习概率与统计经点答疑三.docx（16页珍藏版）》请在冰点文库上搜索。

北大附中高考数学专题复习概率与统计经点答疑三.docx

北大附中高考数学专题复习概率与统计经点答北大附中高考数学专题复习概率与统计经点答疑三疑三学科：

数学教学内容：

概率与统计经点答疑（三）9统计学中有哪些基本概念?

数理统计的研究对象也是随机现象概率论是从对随机现象的大量观察中提出随机现象的数学模型，然后再研究数学模型的性质和特点，由此来阐述随机现象的统计规律性；而数理统计则是从对随机现象的观测所得资料出发，用概率论的理论来研究随机现象比如对随机现象的数学模型中某些参数进行估计，或者检验随机现象的数学模型是否得当，然后在此基础上对随机现象的性质和特点作出推断现在介绍一些数理统计中的基本概念在数理统计中，我们最关心研究对象的某项数量指标我们将研究对象的某项数量指标值的全体称为总体，总体中的每个元素称为个体每个个体是一个实数例如，某工厂生产的灯泡寿命的全体是一个总体，每一个灯泡的寿命是一个个体；某学校男学生的身高的全体是一个总体，每个男学生的身高是一个个体总体按照其包含的个体总数分为有限总体和无限总体例如，某工厂10月份生产的灯泡寿命所成的总体中，个体的总数就是10月份生产的灯泡数，这是一个有限总体而这个工厂生产的所有灯泡寿命所成的总体是一个无限总体，它包括以往生产和今后生产的灯泡寿命当有限总体所包含的个体的总数很大时，可以近似地将它看成是无限总体例如，我们来考察某工厂10月份生产的灯泡的寿命所成的总体我们知道灯泡寿命落在各个时间区间内有一定的百分比，如灯泡寿命落在1000小时1300小时的占灯泡总数的85%落在1300小时1800小时的占灯泡总数的5%等等即灯泡寿命的取值有一定的分布一般，我们所研究的总体，即研究对象的某项数量指标，它的取值在客观上有一定的分布，X是一个随机变量我们对总体的研究，就是对相应的随机变量X的分布的研究据此，的分布函数和数字特征分别称为总体的分布函数和数字特征要将一个总体的性质了解得十分清楚，初看起来，最理想的办法是对每个个体逐个进行观察，但实际上这样做往往是不现实的例如，要研究灯泡寿命，由于寿命试验是破坏性的，一旦我们获得试验的所有结果，这批灯泡也全部被烧毁了因此我们只能从整批灯泡中抽取一些灯泡做寿命试验，并记录结果，然后根据这些数据来推断整批灯泡的寿命情况又如，对于像啤酒瓶盖橡皮垫片这种产品，尽管只要通过简单的测量就能确定它是否合格，而且试验又不是破坏性的，然而，由于垫片的产量为数甚多，逐一测验要花费大量人力和时间，因此，我们仍然只能抽取少量垫片进行测量，并根据所得数据估计整批垫片的合格率一般地，我们都是从总体中抽取一部分个体进行观察，然后根据所得数据来推断总体的质，这些被抽出的部分个体，叫做总体的一个样本所谓从总体抽取一个个体，就是对总体X进行一次观察（即进行一次试验），并记录其结果我们在相同的条件下对总体X进行n次重复的、独立的观察将n次观察的结果按试验的次序记为由于是对随机变量X观察的结果，且各次观察的结果是在相同条件下独立进行的，所以有理由认为是相互独立的，且都是与X具有相同分布的随机变量这样得到的称为来自总体X的一个简单随机样本，n称为这个样本的样本容量当n次观察一经完成，我们对这组随机变量就得到一组观察值它是一组实数，称为样本值对于有限总体，采用放回抽样就能得到简单随机样本，但放回抽样应用起来不方便，当个体的总数N比要得到的样本容量n大得多时，（般当N10n时），在实际中可将不放回抽样近似地当作放回抽样来处理综上所述，我们给出以下的定义定义：

设X是具有分布函数F的随机变量，若是具有同一分布函数F的相互独立的随机变量，则称为从分布函数F（或总体X）得到的容量为n的简单随机样本，简称样本它们的观察值称为样本值，又称为X的n个独立的观察值10什么是频数表和频数分布?

假定某个数学班的学生的身高（单位：

厘米）如下：

164173168168176170162167171169168160165168166168167171166172用这种形式给出的数据难以说明什么问题如果把它们加以整理，就比较容易说明问题了例如，我们可以按照递增和递降的顺序来排列身高，这叫做排序于是我们很容易看出：

160是最小身高，176是最大身高，身高为168或低于168的约占半数，所测量的最大值和最小值之差称为极差下面是按递增顺序对身高的排序：

160166168168171162166168169172164167168170173165167168171176整理数据的个更为有用的方法是频数表，它给出了每一类的频数如下表所示：

身高频数身高频数160161162163164165166167168101011225169170171172173174175176177112110010表1-22另外，常用的还有点频数图点频数图是种表示数据在极差范围内是怎样散布的图形，本例中我们看到身高似乎集中在168左右如图14所示：

频数表和点频数图都用来表示数据的分布或频数分布需要注意的是，频数分布是一个函数，即每个观察值与它的频数相对应这样，个频数可以用表示一个函数的三种方式的任何种来表示：

用表、用图或用一个规则（有时是解析式）在描述数据时，通常用表（频数表）或图（例如点频数图等）可是，为了描述一种理论频数分布，有时必须要说明给出函数的规则有时，把数据整理成另一种分布所谓的累积频数分布图是方便易行的，如图1-5所示：

这种分布图给出了每一观察值与不大于该观察值的频数之间的关系，从图形上看，累积频数分布用一种累积图来表示横轴上的数表示身高，纵轴左边的数表示累积频数而右边的数表示累计频数的百分比于是，每一个纵坐标给出了少于或等于相应横坐标上身高的频数或百分数，从上面的累积图显然看出，身高少于或等于167厘米的频数是8，百分比是40%累积图上纵坐标为P，百分数的点所对应的横坐标叫做P百分位数例如，90百分位数是172这意味着90%的人的身高小于或等于172厘米50百分位数称为中位数，25百分位数称为下四分位数，而75百分位数称为上四分位数11如何对大量的原始数据进行数据分组?

当碰到大量原始数据时，把这些数据按适当的区间分组是方便的为了便于计数，希望所选择的每个区间的中点是诸如5或10的倍数一般区间数应不少于10个而不多于25个区间的边界值通常应比原始数据中出现的小数位数多一位，以便使得每一个数据仅包含在一个区间之内假定下面的数据是有50个高中学生的一个班在某次数学测验中所得到的分数：

8874674969388677667594677869845039587970907997759877646982716568847358787589916272627481798186789081乍一看这些分数就知道，最低分为38，最高分为98于是，如我们要把数据分组，使区间中点为5的整倍数，可分为13个区间，它满足大于10小于25的条件为了保证每个数据仅被包含在一个区间内，区间的边界确定到小数点后一位这就得出下面的数学测验得分的分组频数表区间区间中点频数频数百分数累积频数累积频数百分比37.542.542.547.547.552.552.557.557.562.562.567.567.572.540455055606570758085909520204578104524040810141620810422448132028384247494%4%8%8%16%26%40%56%76%84%94%98%72.577.577.582.582.587.587.592.592.597.597.5102.51001250100%表1-23为了从图形上说明分组数据的频数分布，我们用频数直方图来代替点频数图直方图是一种条线图，其中每一个矩形的底表示一个区间，高表示在给定的区间内观测数据的个数上述数学测验得分分组直方图如图16所示：

对未分组的数据作出的累积图给出了累积分布对分组数据，我们叫做累积折线，也叫尖顶图这个图的作法是：

折线上的点的横坐标取所在区间的右边界，纵坐标取相应的累积频数，然后把所确定的点用线段连接起来，横坐标为第一个区间的左边界、纵坐标为零的点，也包括在累积折线内如图1-7所示：

这样，对于累积折线上的任何一点，纵坐标给出了少于或等于横坐标的观察数据的数目从前面给出的数学测验的累积折线图上可以看到，少于或等于91分的大约为45人像在累积图上一样，也可用同样的方法在累积折线上决定百分位数例如，在上图中可以读出，中位数为76；25百分位数是67；75百分位数是82前面的问题介绍了频数表和频数分布这个问题中又介绍了如何对数据进行分组，让我们来看一道例题说明前面这些图表的作法例下面是30个灯泡的寿命（单位：

小时）870840920950960810830860900800940920850840880810950840830910970930870930900980910930970880试作出这组数据的总频数图和累积图另外把这些数据按区间795815，815835，835855，975995分组作出其频数表、直方图和累积折线思路启迪为了作出点频数图和累积图，我们先做出这组数据的频数表如下所示：

寿命频数寿命频数800810820830840850860120231219009109209309409509602223121870880890220970980990210表1-24有了上面的频数表，我们很容易作出点频数图和累积图规范解法根据所给数据的频数表我们可以作出点频数图和累积图如下所示：

按给定的分组可得频数表、直方图和累积折线分别如下：

区间区间中点频数频数百分比累积频数累积频数百分比79581580531031081583582526.7516.7835855845413.3930855875965310124087589588526.71446.7895915905413.31860915935925516.72376.79359559453102686.79559759653102996.797599598513.330100表1-2512如何度量给定数据组的中心趋势和离散程度？

资本家和工会公开辩论工人的工资，工会报告说，工人每年拿到的工资平均只有3000元，而资本家却说工人的年平均工资为7300元，到底谁的话更可信呢?

在作出判断之前，我们先来看一下用来计算上述结果的工人工资数：

3000，3000，3000，3500，4000，4500，6000，6000，15000和25000，在所有这些工资中，哪一层次的最普遍呢?

也就是说，在上面所列的工资中，工人拿哪一种工资的人最多?

在数据集合中，我们称出现最多的数字为“众数”在上面给出的集合中，众数是3000用以代替所考虑的最常出现的工资数，我们把所有工人的工资放在起求平均数，这样得到的是这组数据的平均数，一般用“”表示即：

对给定的数据，有下列公式按公式可以计算我们给定的工资集合的平均数元那么7300元是不是对工人平均工资的合理的估计呢?

有时，用来估计数据集合的中心趋势的另一个数是中位数把一组数据按从小到大的顺序排列然后取中间的一个数，它就是中位数如果数据的个数是偶数，那么中位数就取中间两个数的平均数那么上述工资数据的中位数是多少呢?

易得这组数据的中位数是4250，那么在3000，4250，7300这三个数中，哪一个看上去是平均工资的最好估计呢?

上面讲的众数、平均数和中位数可统称为平均一般情况下，如果有人告诉你某一数据集合的平均是某个数，而没告诉你它是一个什么样的平均，则这个信息就没有太大的作用一般来说，即使告诉了你别人用了哪种平均方法，掌握更多的资料比只知道平均更为有价值例如，除了知道平均数为7300元以外，我们又知道它由10个人的工资所平均，这样的话，工资总数为73000元当然，工资总数并不能告诉你工资是如何分配的，这对工会来说似乎是最重要的问题，如果有一份工资为50000元，（例如经理的工资），那么分给其他9个人的工资就不会太多换一种情况，如果最高工资为8000元，那么大多数雇员一定会得到7000元左右的工资这样，很清楚，如果与平均工资一起报出最高和最低工资，我们就能对上述两种说法有比较公正的看法了如果不是告诉读者最高和最低工资，而是给出了最高和最低工资之差（称为极差），对于精明的读者，仍然能找到许多有用的信息例如，如果10份工资的平均数是7300元，极差是22000元，我们就能断定最高工资至少是22000元，更可能是24000元或25000元，因为最少的工资几乎可以肯定会是2000元或多一些因此有如果10个人的平均工资是7300元，总工资应为73000元如果一个人的工资大约是24000元，那么其他9个人的总工资应为49000元，9人的平均工资约为5444元一个数据集合的极差是这组数据离散程度的度量，可是，极差仅仅依赖于数据两端的值它没有给出关于这两个端点间数据离散程度的任何信息对一个数据集来说，任何一个数据对平均数的离差为使用前面关于工资的数据（它的平均数为7300元），我们计算3000对于平均数的离差：

再计算15000对于平均数的离差：

注意到3000对于的离差为负而15000对于的离差为正计算其余的每一工资数对于的离差有：

30003500400045006000150002500043003800330028001300770017700表1-26由上表可知，所有工资数对于的离差之和为0事实上，任何一组数据对平均数的离差之和总是0因此，不能用对平均数的离差来描述这组数据的离散程度因为对平均数离差的总和没有给出关于这一数据集合的离散程度的任何信息可是，我们可以考查对平均数离差的绝对值，由于一个数的绝对值不会是负数，并且除非对所有的有，否则对平均数的离差的绝对值之和就不会是0就上述工资的数据来计算这个和，我们得到40900，这个和也不是关于数据离散程度的满意的度量，因此我们用测量数据的个数去除40900，得到4090这个值称为平均离差，它常用来度量数据的离散性虽然数据的平均离差能对数据的离散性进行可靠、合理的度量，但在更高级的数学处理中，绝对值的运算常常会带来一些问题（尤其对大量数据而言）因此，我们常采用所谓标准差来作为离散性的度量经过上面的叙述可以知道，之所以使用绝对值函数，主要考虑到它是正的，也就是说，我们只需要考虑绝对值的大小具有同样性质的另一种函数是将离差平方这种作法构成了下面标准差概念的基础定义：

已知是一组观测值是这组观测数据的平均数，则该组数据的标准差为：

标准差的平方与标准差本身是一样方便的，标准差的平方称为方差关于上面工资数据的离差和离差的平方如下表：

3000350040004500600015000250004300380033002800130077017701849000014440000108900007840000169000059290000313290000730000464600000表1-27一个用以简化计算标准差的等价公式是：

为了推导这个公式，我们来考查方差的公式：

将和式中每一个二项式平方后得到：

整理后得到：

在上式两端取平方根就得到因为上面的公式和关于标准差的原公式是等价的，所以如果觉得哪个方便就用哪个例如计算3，5，8，13的标准差，用所推导的公式计算如下：

而运用原公式，我们计算如下：