六西格玛数据分析技术4.pptx
- 文档编号:18684274
- 上传时间:2023-09-08
- 格式:PPTX
- 页数:39
- 大小:772.50KB
六西格玛数据分析技术4.pptx
《六西格玛数据分析技术4.pptx》由会员分享,可在线阅读,更多相关《六西格玛数据分析技术4.pptx(39页珍藏版)》请在冰点文库上搜索。
SSMC中国人民大学六西格玛质量管理研究中心六西格玛管理培训丛书(5)o何晓群主编何晓群主编六西格玛数据分析技术六西格玛数据分析技术何群著晓编光作者:
陶沙晨盘苏辉中国人民大学出版社SSMC中国人民大学六西格玛质量管理研究中心第4章参数估计4.1参数估计的基本概念4.2总体均值和总体比例的区间估计4.3样本容量的确定4.4两总体均值之差的区间估计4.5两总体比例之差的区间估计4.6正态总体方差的区间估计4.7两个正态总体方差比的区间估计4.8有关区间估计的Minitab软件实现小组讨论与练习返回目录SSMC中国人民大学六西格玛质量管理研究中心本章目标1.掌握参数估计的基本概念2.建立起在管理中运用参数估计的思想3.能运用Minitab实现各种区间估计的计算4.掌握样本容量的确定方法5.能在管理实践中运用参数估计方法返回目录SSMC中国人民大学六西格玛质量管理研究中心4.1参数估计的基本概念u参数估计有两大类,一种叫点估计,一种叫区间估计u点估计是利用样本的信息对所感兴趣的参数估计出一个数值u区间估计包含了两个数值,对应着数轴上的一个区间,所以称为区间估计u点估计的方法最常用的有两种:
矩估计法极大似然估计法u对一个估计优良性的评价有一些相应的评价准则返回目录SSMC中国人民大学六西格玛质量管理研究中心u对总体参数的估计,人们最容易想到的方法就是矩估计法,即用样本矩估计总体相应的矩,用样本矩的函数估计总体相应矩的函数。
u矩是指以期望值为基础而定义的数字特征,例如均值、方差、协方差等。
u最常用的矩估计有:
用样本均值估计总体均值,用样本标准差估计总体标准差。
u例41.已知某种灯泡的寿命XN(,2),其中,2均未知,今随机抽取4只灯泡,测得寿命(单位:
小时)为1502,1453,1367,1650。
试估计,。
矩估计法返回目录SSMC中国人民大学六西格玛质量管理研究中心矩估计法(续)u解:
因为是全体灯泡的平均寿命,为样本的平均寿命,很自然地会想到用去估计;同理用s去估计。
u由于u例42.设样本x1,x2,xn来自参数为的泊松分布。
由于E(X)=D(X)=,因而与s2都可以作为的矩估计值。
u由例42可以看出E(X)=D(X)=,这表明总体均值与方差相等,但在实际问题中与s2不见得一样,因而矩估计的结果不惟一。
返回目录)(61.118),(149316.118140691406914)14936501()14931502(1493)1650136714531502(41222小时小时即sxssxxxxxSSMC中国人民大学六西格玛质量管理研究中心极大似然估计u极大似然估计是利用总体的分布密度或概率分布的表达式及其样本所提供的信息建立求未知参数估计量的一种方法。
u极大似然估计好多初学者觉得难以理解,我们用下面的说法帮助理解:
在产品检验中,有说这批产品的次品率可能是1/10000,也有说次品率可能是1/100。
如果你在这批产品中随机抽取一件,竟然就是次品,自然应当认为这批产品的次品率最有可能是1/100而不是1/10000。
把这种考虑问题的方法一般化,就概括出极大似然估计方法。
返回目录SSMC中国人民大学六西格玛质量管理研究中心极大似然估计(续1)u设总体X的分布已知,未知参数为,假定其分布密度族为f(x;);u假设对总体X的n次观测结果为(x1,x2,xn)。
应在一切中选取使样本(X1,X2,Xn)落在点(x1,x2,xn)附近概率最大的作为未知参数真值的估计值,即选取使:
其中称为似然函数,它是样本的联合概率密度函数。
返回目录)(max)(2121nn,x,xxL,x,xxL;)(21n,x,xxL;SSMC中国人民大学六西格玛质量管理研究中心极大似然估计(续2)u一般情况下,我们用求解似然方程的方法进行极大似然估计,具体步骤是:
1.由总体分布导出样本的联合概率密度;2.把样本联合概率密度中自变量x1,x2,xn看成已知常数,而把参数看作变量,得到似然函数;3.用微分原理求似然函数的最大值点;4.在最大值点的表达式中,代入样本值就得参数的估计值。
u可以证明:
若x1,x2,xn来自正态总体N(,2),则:
返回目录niiniixxnxnx121)(11SSMC中国人民大学六西格玛质量管理研究中心u例4-3.设某种品牌的电视机的首次故障时间遵从指数分布f(t)=e-t,t0,共测试了7台电视机,获得相应的首次故障时间(单位:
万小时)为:
1.49,3.65,0.26,4.25,5.43,6.97,8.09求参数的估计值。
解:
样本x1,x2,xn的联合密度用均值来表示,就有:
,将看作常数,看作变量,可得似然函数,进而取对数,求微商,解方程可得:
对本例而言,就有:
极大似然估计(续3)返回目录2326.01.3071xxnnxnnnniixnxnineLe,x,xxPxnxee,x,xxPniii)()
(1)()(2111211xSSMC中国人民大学六西格玛质量管理研究中心点估计的优良性准则u不同的参数估计方法,可得到不同的估计量,不同的估计量谁优谁劣?
我们有一些相应的评价准则。
在6管理中,最常用的点估计优良性准则有两个:
一个是无偏性,另一个是有效性。
u无偏性:
设是参数的一个估计量,如果,则称是参数的无偏估计。
无偏性实际上是指对于一个估计量,屡次变更数据反复求估计值时,估计值的平均与真值相一致,即尽管有时比大,有时比小,总的看来,它的“平均值”就是。
可以证明:
许多情况下,是的无偏估计,s是的无偏估计。
然而,在正态分布中的极大似然估计就不是无偏估计。
返回目录x)(ESSMC中国人民大学六西格玛质量管理研究中心有效性无偏性只考虑估计值的平均结果是否等于待估参数的真值,而不考虑每个估计值与待估参数真值之间偏差的大小和散布程度。
实际问题的研究中,不仅希望估计是无偏的,更希望这些估计值的偏差尽可能地小。
u设都是参数的无偏估计量,如果且至少有一个,严格不等号成立,则称比有效。
设、x1都是的无偏估计,但样本均值的方差为2/n,x1的方差为2,只要n1,作为的估计值,比x1就更有效。
返回目录)()(21DD21、210xxxSSMC中国人民大学六西格玛质量管理研究中心区间估计u点估计没有给出估计的精度和可靠程度,区间估计解决了这一问题。
u设是总体的一个待估参数,从总体中获得容量为n的样本是x1,x2,xn,对给定的(05,n(1p)5,则可用正态分布去近似二项分布,因而有:
因此由正态分布构造总体比例p的置信区间为:
返回目录p)1(1,(ppnpNpnppZp)1(2/1SSMC中国人民大学六西格玛质量管理研究中心总体比例置信区间估计的例子u例47.某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机抽选了200人组成一个样本。
访问结果,有140人说他的离开是由于企业管理缺乏人性化。
试对由于这种原因而离开企业的人员的真正比例进行估计(=0.05)。
解:
已知n=200,=0.7,=1405,=605,Z1-/2=1.96故该企业职工认为企业管理缺乏人性化而离开的比例为63.6%76.4%。
返回目录)764.0,636.0()200)7.01(7.096.17.0,200)7.01(7.096.17.0()1(,)1(2/12/1nppZpnppZpppn)1(pnSSMC中国人民大学六西格玛质量管理研究中心4.3样本容量的确定u在研究实际问题时,需要自己动手设计调查方案,这时如何确定样本容量大有学问。
如果样本量太大,必然费用增加;如果样本量过小,估计误差又会增大。
u这就看你需要什么样的估计精度,即你想构造多宽的估计区间?
u对于你所确定的置信区间,你想要多大的置信度?
u估计总体均值时,样本容量的确定在总体均值的区间估计里,置信区间是:
该区间估计的精度为,是区间估计长度的一半。
返回目录)/,/(2121nZxnZxnZ/21SSMC中国人民大学六西格玛质量管理研究中心样本容量的确定(续1)u如果我们希望估计值与其真实值之间的误差或估计的精度在置信度(1-)下不超过某一数值B(允许误差),则可从下面的方程确定n。
解之得:
u只要我们知道了Z1-/2,和允许误差,就可具体算出样本容量n。
u如果算出的n不是整数,就去超过该小数的最接近的整数即可。
返回目录22121)B/(B/ZnnZSSMC中国人民大学六西格玛质量管理研究中心样本容量的确定(续2)u由样本容量的确定公式,你可发现几个量之间的一些关系:
1.总体方差越大,必要的样本容量n越大。
2.必要样本容量n反比例于允许误差B。
即在给定的置信水平下,允许误差越大,样本容量就可以越小;允许误差越小,样本容量就必须加大。
3.必要样本容量n与正态分布Z1-/2分位数(也称可靠性系数)成正比。
即:
我们要求的可靠程度越高,样本容量就应越大;如果要求的可靠程度越低,样本容量就可以小些。
返回目录221)B/(ZnSSMC中国人民大学六西格玛质量管理研究中心样本容量的确定(续3)u例48.某广告公司想估计某类商场去年所花的广告费平均有多少。
经验表明,总体方差约为1800000。
如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?
解:
已知2=1800000,=0.05,Z1-/2=1.96,B=500即这家广告公司应抽取28个商场作样本。
返回目录2865.27)500()1800000()96.1()B(22221ZnSSMC中国人民大学六西格玛质量管理研究中心样本容量的确定(续4)u估计总体比例时,样本容量n的计算公式是:
u例49.某市场调查公司想估计某地区有数码相机的家庭所占的比例。
该公司希望对p的估计误差不超过0.05,要求的可靠度为95%,应取多大的样本?
没有可利用的估计值。
解:
通常在此类问题研究中,无法得到值时,可以用=0.5计算。
已知B=0.05,=0.05,Z1-/2=1.96,=0.5即抽取385户调查,就可以95%的可靠度保证估计误差不超过0.05。
返回目录2221B)1(ppZn385(0.05)5.01(5.096).(1B)1(222221ppZnppppSSMC中国人民大学六西格玛质量管理研究中心4.4两个总体均值之差的区间估计u某化工厂需要比较由两个供应商提供的原材料所带来的产量,某企业质量管理部的部长希望了解车间内两条生产线生产的灯泡平均寿命是否存在差异等。
这些都是要对两个总体均值之差作区间估计。
u两个总体的方差已知情况下,两总体均值差异1-2的区间估计:
其中,分别为来自两个总体的样本均值,n1,n2为抽自两总体的样本容量,分别是两总体的方差。
u只要样本容量足够大,对于总体分布是否正态都可适用。
返回目录2221、2221212121Z)(nnxx21xx、2221、SSMC中国人民大学六西格玛质量管理研究中心两个总体均值之差的估计案例u例410.某企业质量部部长希望了解企业两条生产线生产的灯泡平均寿命是否存在差异。
假定两条生产线生产的灯泡的寿命均呈正态分布,方差分别为。
随机从两条生产线生产的灯泡中各抽取20只和25只,测得平均寿命分别为1478小时和1456小时,在=0.05时,求出两条生产线生产的灯泡平均寿命差异的区间估计。
解:
即1-2的95%的置信区间为(9.8,34.2)。
返回目录4454202221,)2.8,34.9(Z)(,96.1Z,05.0445,420,1456,1478,25,202221212121212122212121nnxxxxnn的区间估计为:
则SSMC中国人民大学六西格玛质量管理研究中心两个总体方差未知的情况u两个总体均遵从正态分布,且未知时,为了给出1-2的估计我们必须利用两个样本中关于2的信息联合大体估计2,这个联合估计量为:
u这时两个总体均值之差1-2的1-置信水平下的置信区间为:
返回目录22212221,当2221、2)1()1(212222112nnsnsnSp2121212111)2()(nnSnntxxpSSMC中国人民大学六西格玛质量管理研究中心方差不等的情况u当两个总体均遵从正态分布,且方差未知时,自然用抽样分布不遵从自由度为(n1+n22)的t分布,而近似遵从自由度为f的t分布。
f的计算公式为:
这样两个总体均值之差1-2的1-置信水平下的置信区间为:
返回目录2221)1)
(1)()(22222121212222121nnsnnsnsnsf2221212121)()(nsnsftxx的但此时的估计为从而得到和分别估计和22212121212221212)(22212221)()(),(,21nsnsxxnsnsssxxSSMC中国人民大学六西格玛质量管理研究中心4.5两个总体比例之差的区间估计u设两个正态总体的比例分别为p1和p2,为了估计p1p2,分别从两个总体中各随机抽取容量为n1和n2的两个随机样本,并计算两个样本的比例,可以证明,p1p2的置信度为1-的置信区间为:
返回目录21pp和2221112121)1()1(Z)(nppnppppSSMC中国人民大学六西格玛质量管理研究中心4.6正态总体方差的区间估计u设x1,x2,xn来自均值为,方差为2的正态总体,、2均未知,则2的估计量为s2,且u利用2(n1)分布可以得到2的1置信区间为:
u其中分别是2(n1)分布的1/2分位数与/2分位数。
返回目录)1()1(,)1()1(2222212nsnnsn)1()1(22221nn与)1()1(222nsnSSMC中国人民大学六西格玛质量管理研究中心总体方差区间估计的案例u例414.对某种金属材料的10个样品所组成的一个随机样本作抗拉强度试验。
从试验数据算出方差为4,试求2的95%置信区间。
解:
设该种金属材料的抗拉强度遵从正态分布,则此时2的置信度为95%的置信区间为:
即1.8925,13.3314,而标准差的95%的置信区间为:
返回目录7004.24)110(,0228.194)110(405.095.0110,)1()1(,)1()1(22222212snnsnnsn,式中。
,即65.338.13314.13,8925.1SSMC中国人民大学六西格玛质量管理研究中心4.7两个正态总体方差比的区间估计u实际问题中,我们需要比较两种测量工具的精度;比较两个生产过程的稳定性;比较两个评委评分的变异性等等,这些都可转化为两个总体方差的比较。
u可以证明:
置信度为1-的的区间估计为:
注意:
F分布的分位数F(n1,n2)=1/F1-(n2,n1),查表时有用。
返回目录2221)1,1(1,)1,1(1212222121212221nnFssnnFssSSMC中国人民大学六西格玛质量管理研究中心4.8有关区间估计的Minitab软件实现一.点估计的软件实现:
1.例4-1的软件实现,输入数据见表:
2.点击StatBasicStatisticsDisplayDescriptiveStatistics返回目录SSMC中国人民大学六西格玛质量管理研究中心3.弹出如下对话框,选择要分析的变量进入Variables框中,点击OK键,结果如下:
均值,标准差:
返回目录SSMC中国人民大学六西格玛质量管理研究中心4.此外,还可以点击StatBasicStatisticsStoreDescriptiveStatistics,弹出如下对话框:
5.选择变量后,点击Statistics,弹出下面的复选框,可选择你需要估计的参数值,点击OK得到结果:
返回目录SSMC中国人民大学六西格玛质量管理研究中心比例的区间估计:
方差之比的区间估计:
二.均值及方差的区间估计:
单样本方差已知的均值区间估计:
单样本方差未知的均值区间估计:
两样本均值之差的区间估计:
返回目录SSMC中国人民大学六西格玛质量管理研究中心小组讨论与练习1.区间估计与点估计的思想方法有什么不同?
2.从一批零件中随机抽取了100个进行量测,其零件长度的平均数=69.7mm,若s2=3.5,试以95%的置信水平估计该批零件长度均值的置信区间。
3.某企业的质量部要估计其产品的废品率。
这家企业接受的废品率最高为5%。
如果希望误差不超过2%和1%,置信度为95%,满足2%和1%的误差分别抽取多少件产品进行检测。
试说明两者结果的意义。
返回目录x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 六西格玛 数据 分析 技术