第十四章数据的分类Word下载.docx
- 文档编号:1446399
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:13
- 大小:93.81KB
第十四章数据的分类Word下载.docx
《第十四章数据的分类Word下载.docx》由会员分享,可在线阅读,更多相关《第十四章数据的分类Word下载.docx(13页珍藏版)》请在冰点文库上搜索。
它是一种在数轴上能连续取值的连续型变量值。
2)计数数据
凡不能用量具进行计测的质量特性,如玻璃上的气泡、棉布上的毛结等因其只能加以计数测定,故称其为计数特性。
相应的数据称为计数数据。
它是一种离散型变量值,一般为非负整数。
计数数据又可细分为:
计件数据是根据某种质量特性对产品按件查数的数据。
如不合格品数、缺席人数等。
其典型分布为二项分布。
计点数据是根据某种质量特性对产品按点计数的数据。
例如疵点数、铸件砂眼数等。
其典型分布是泊松分布。
3)优劣数据
表征质量优劣程度的数据称优劣数据。
为焊缝质量、产品等级等即属此类数据。
4)顺序数据
表征名次顺序的数据,如得奖名次数等。
5)评分数据
对只能进行官能测定的质量特性,如菜肴的色、香、味、形,舱室布置的适居性,器乐的优美等采取由若干评判员评分的方法给以定量化,此类数据即评分数据。
14.3数据收集
1)收集数据的目的
数据收集要有明确的目的。
在质量管理中收集数据常有如下的目的:
判定产品批质量水平作检验用;
对质量变化进行动态控制作管理用;
用于考察影响产品质量诸因素作分析用;
为求得最佳方案作设计用。
总之,数据收集、整理与分析的最后目的是要反映到总体质量的提高上去。
数据的处理过程如图一l4所示。
图-14数据处理过程
2)试验法
在质量管理中,收集数据常用的方法有试验法和抽样法两种。
所谓试验法就是采用数理统计的方法合理地安排试验,以最少的试验次数,获得准确、可靠的试验数据并能进行简单、有效的统计分析的一种统计方法。
试验法作为一种数理统计方法,不但能够作分析用,而且还能作数据收集用,这是其他统计方法所不及的。
3)抽样法
所谓抽样就是根据收集数据的目的从总体中抽取样品组成样组的过程,它又称取样。
而所谓抽样法,又称抽样调查法、统计抽样法,是指按照一定的理论从总体中抽取具有代表性的样本进行观测分析,从而对总体性质作出推断的一种数据收集方法。
在现代统计学中,抽样法可作如图14—2所示的分类。
图-15抽样分类法
抽样法的基本要求是:
子样对总体应具有充分的代表性,这样才能有效地利用样本对总体作出正确的推断;
坚持随机化原则,避免产生倾向性的系统误差;
根据不同的情况,选用相应的抽样方法,通过事先计算,尽可能将抽样误差来表征,控制在允许范围内;
总体过小(如N<15),则不宜采用抽样法。
4)概率抽样
又称无意识抽样、随机抽样,这是抽样的基本方法。
所谓随机抽样就是指总体中每一个体被抽取的可能是相等的、且不掺杂人的主观意志在内的一种抽样方法。
从理论上说,随机抽样是比较容易的,但在实际工作中由于受到种种条件限制,要真正做到随机抽样又确非易事。
(1)单纯随机抽样,又称真随机抽样、简单随机抽样。
因其样品是直接从总体中不加任何限制抽选出来的,因此单纯随机抽样也可称为无限随机抽样。
在不掌握总体信息、且总体较均匀的情况下,采用这种抽样法较为适宜。
为了实现抽样的随机化,避免人的主观意志和操作偏习的影响,可采用如下方法:
当总体中的个体不能编号时,则可将总体混匀,然后可以“闭着眼睛”随意从各处摸取;
当个体能编号时,则可采用抽签法、掷骰法、随机数表法随机抽取样品。
抽签法在签筒中放入l0支或20支分别标有0~9数码的竹签,然后即可抽取随机数,其位数可按抽取的先后次序规定。
掷骰法国际上通用的抽样骰子是具有20面正三角形的骰子。
在骰子的各面上分列记入两次0~9的数码。
位数可以通过使用不同颜色的骰子来区分。
随机数表法它又称乱数表。
该数表以前是用特制机器或普查统计数
据编制而成的。
现在可将获取随机数的专用程序输入电子计算机,即可取得完全符合随机化要求的随机数码,并可将其编印成表。
本书附录一即为随机数表。
使用时,首先掷一颗六面体骰子以确定选用数表的页次,然后用掷骰子确定读数的方向是横行向还是纵列向,最后用笔尖非目视地
随机笔触到表中某数作为读数的起点,从而根据抽样要求取出样品。
单纯随机抽样有重复与不重复抽样之分。
单纯随机重复抽样相当于“放回摸球”,其随机性最彻底。
但在工业抽样中要做到“放回摸球”是不现实的。
因此当总体为无限总体时,可近似视为重复抽样。
此时,表征抽样误差的样组均值的标准偏差。
式中σ为总体标准偏差,n为样组大小。
单纯随机不重复抽样相当于“不放回摸球”。
当总体为有限总体时即属此情况。
此时
式中,N为总体大小。
当n/N<
0.2时,修正系数((N-n)/(N-1))½
近似于1。
(2)机械随机抽样限制随机抽样是指不能直接从总体中抽样而要加以限制的一种抽样方法。
机械抽样是其中的一种。
机械法又称系统抽样、间隔抽样或规律性抽样。
它是在时间或空间上,以相等的间隔顺次地抽取样品组成样组的抽样方法:
具体地说,将总体中N个个体排成次序并分成n组,每组大小K=N/n。
在最初的K个个体中随机抽取一个个体,以后顺次在每组内抽取同样次序的个体作为样品。
例如K=15,抽取的第一个个体顺序为其中的第13个,则顺次抽取的个体为第28、43、58等等,此称每逢K个的机械样本。
机械随机抽样的特点是:
总体中的个体按时问先后有一定的顺序;
简单易行,较适用于工序控制;
比单纯抽样的误差小,在总体足够大且能作出顺序安排时,其抽样误差有时也比分层抽样小;
为了保证样组的代表性,必须注意抽样的节奏与机器调整、刀具调换节奏不能成固定的相位关系。
(3)分层随机抽样。
为了便于查明问题、分析原因,按数据不同的来源把具有共同性质的数据根据相似的原则预先进行分组,这种组称为“层”,此种数据整理分析的方法称为分层法。
常用的分层标志即4M1E。
分层时要注意:
使层内力求均匀,扩大层间的差异;
层别不宜太多,否则失去层别特征;
分层统计分析时,需注意层别数据间的交互作用。
例如某厂为对一齿轮箱的漏油问题进行质量分析,抽验了50台,发现造成漏油的原因主要是操作方法和密封圈的质量。
经对操作者、密封圈进行分层统计分析,发现乙的漏油率最低(0.25)、B厂所提供的产品漏油现象甚少(表14-1)。
但若考虑到层间的交互作用,从表14-2可见,却是以采用甲的操作方法、使用B厂的密封圈可以消灭漏油现象,而且效率也高。
分层抽样又称类型抽样、典型抽样。
因事先必须加以分层,故属限制抽样法。
因此,所谓分层抽样就是先把总体分成若干层别,再在各层中随机抽取样品最后组成样组的抽样方法。
这种方法抽样误差小,对总体不均匀但掌握总体数据历史的情况最为适用。
由于比例抽样分配合理,推算简便,因此是应用较多的一种分层抽样法。
样组大小
ni=n×
(Ni/N),
式中,N为总体大小;
ni为第i层抽样数;
Ni为第i层别大小。
(4)整群随机抽样,又称系列抽样或划区抽样。
它是指在总体中一次并非抽取单个个体,而是抽取整群个体作为样品的抽样方法。
例如抽验5%产品时,则可每隔20小时抽出l小时的产品作为样品。
由此可知,一旦某一个体被抽取,以后一连串的个体就必然地被抽取。
整群抽样的优点是组织方便、容易抽取。
它的缺点是样品在总体中的分布很不均匀,因而其代表性较差。
由于工艺条件的变化,所抽样品很难代表整体。
为了改善样组的代表性,一般总是要比其他方法抽取更多的样品。
它往往是将同一区间内所抽取的一群个体当作一个个体。
群间散差愈小,用整群随机抽样的效果愈好,故若可能应在抽样前将总体搅匀。
为了使样组更具有代表性,减少抽样误差,可综合运用点列四种抽样法。
各抽样法的示意如图14-4所示。
14.4数据修约
对数据的有效位数如何取舍此即数据的修约或圆整问题。
在数理统计中,修约规则与传统的“四舍五入”法则不尽相同。
这是因为“四舍五入”法则的舍入误差期望值不能满足E(δ)=0的要求。
E(δ)=∑Piδi=1/10[0+(-1)+(-2)+(-3)+(-4)+5+4+3+2+l]=0.5
造成E(δ)=0.5的原因在于当有效位数为n位而第n+1位为5时,据“四舍五入”法则只入不舍的缘故。
为了使舍入误差期望值为零,必须对“四舍五入”法则进行修正:
①若有效位数定为n位而当第n+l位的数值小于5对,该值舍去。
如14.2432取有效数为四位时,则32应舍其值为14.24;
②当n位后的数值大于5时,该值则入。
如26.486与48.05601两数欲取有效位数为四位,则修约后的数值分别为26.49与48.06;
③当第n+1位数正好为5,其后无值,若第n位为偶数此5则舍,为奇数此5则入。
如0.15欲取有效位数为两位,则据本规则修约后其值为0.2;
而对0.05欲保留两位有效数位时,则修约后该数为0。
数据修约规则的口诀是:
五下舍,五上入,整五奇进偶舍。
在数据修约时,一般应对运算的最后结果进行修约,不可对同一数据连续修约。
如对数据15.4546进行连续修约,则将造成如下的错误结果:
15.4546-15.455-15.46-15.5-16。
14.5有效数字
为了说明有效数字,我们先来看一个常见的长度测量问题。
有一个直尺,其最小刻度单位为1mm,用这个直尺量得某物的长为104.5mm,显然,测量值104.5的前三位数字是准确可靠的,它表明该物的长度确有104mm,但是最末一位数字“5”,只能理解为该物的长度在104mm至105mm之间。
在这里,它虽然表示0.5mm,但却是由估计得来的,是不准确的,不同的人看它读它时可能会有出入。
显然,这个物体的长度可以记为104.5mm,也可以记为0.1045m,两种记法单位不同,准确度却完全相同。
即除了最末一位数字是不准确的之外,最末位数的前面三位数字是准确可靠的。
小数点前面的零,仅仅与测量单位的大小有关,而与测量的准确性无关。
一般地,在各种测定中,我们总能精确地测到测量仪器的最小刻度值,并可以估计到最小刻度的十分位数,在记录一个数据时,除最后一位数是不甚确定的外,其它各数字均是实际能测得的准确数字,我们便称此时记录的数据中的数字均为有效数字。
由这个定义不难确定,测量值104.5与0.1045均有4位有效数字。
又如,用万分之一天平称量重为1g的物体,应记为1.0000g,它表明该数据有5位有效数字,其中,前面的4位是实际测得的准确值,最末一位零是由估计得来的。
同理,用万分之一天平称量重为0.01克的物品,应记为0.0100克,这个数据布3位有效数字,即最后的3位。
其中,最末位的一个零是不准确的,第一个非零数字以前的所有的“零”,均否是有效数字,它们只与测量单位有关,表示小数点的位置,而与测量精度无关。
再如,数据0.000760有3位有效数字,可记为7.60×
10↑-4,但数据0.00076就有2位有效数字,应记为7.6×
10↑-4,从测量精度的角度上看,这两个数据并不等价。
对于没有小数位且以若干个零结尾的数据,从第一位非零数字数起,向右得到的总位数减去无效零(即仅用于定位的零)的个数,就是有效位数。
例如,数据25000若有两个无效零,则它有3位有效数字,即最前面的3位,应写为250×
10↑2或2.50×
10↑4若它有3个无效零,则它有2位有效数字,应写为25×
10↑3或2.5×
10↑4。
在实验中记录测定值时,应注意将实际所已达到测量精度准确地表示出来,不要图省事,而将表示精度的有效零省去不写,要在实验中逐步培养科学的态度与良好的习惯。
数据的修约方法举例
收集到的数据有时超过实际所需的精度,国家标准局对数据的修约颁布了标准《数值修约规则》(GB8170-87),它适用于科学技术与生产活动中试验测定和计算得出的各种数值。
除特殊规定者外,一般数据的修约应遵守下述原则。
进舍规则:
(1)若将数据修约为n位有效数字,当第n+1位数字不是5时,按照“四舍六入”的原则修约。
即,第n+1位数字为4或4以下的数字时,则舍去不计;
当第n+1位数字为6或6以上的数字时,舍去进1。
例1将下面的两个数值修约为4位有效数字的数值。
3.203475和15.39602
解:
将3.203475修约为4位有效位数,即进舍数字为第5位数字“4”,按规则“舍去不计”则得:
3.203
将15.39602修约为4位有效位数,被进舍数字为第5位数字“6”,按规则“舍去进1”得:
15.40
例2将数据1268修约到“十”数位。
被进舍数字为8,舍去进1,得127×
10
例3将数据12.48修约到“个”数位。
被进舍数字为4,舍去不计,得12
(2)若将数据修约为n位有效数字,当第n+l位数字为5,而其后跟有并非全部为0的数字时,则舍5进1。
例4将下面的两个数据修约为3位有效位数:
0.2365001和0.0109523
被进舍的数字都为5,因为5后面跟有非零数字,故得:
0.2365001修约为0.237,
0.0109523修约为0.0110
(3)若将数据修约为n位有效数字,当第n+l位数字为5,而后面无数字或皆为0时,若所保留的末位数字为奇数(1,3,5,7,9),则舍5进1;
若所保留的末位数字为偶数(2,4,6,8,0),则5舍去不计。
例5将以下3个数据修约成两位有效位数:
0.475,1.050,32500
按照上述的规则(3)
0.475修约为0.48
1.050修约为1.0,
32500修约为32×
10↑3,或记为3.2×
10↑4
(4)被修约数据为负数时,先将其绝对值按上述
(1)、
(2)、(3)规则进行修约,然后在修约值前面加上负号。
例6将下面的3个数据修约成两位有效位数:
-15.4546,-3.25,-0.0030501
按照上述的4个规则,得:
-15.4546修约为-15
-3.25修约为-3.2
-0.0030501修约为-0.0031
(5)不许连续修约。
被修约的数字应在确定保留位数后,对不保留的第一位数字进行进舍,它以后的数字直接舍去。
而不应从后面的某个不保留数连续向前修约。
例如,将数据3.203475,修约成4位有效位数时,正确的做法是:
3.203475-3.203
不正确的做法是:
3.203475-3.20348-3.2035-3.204
在具体实施中,有时测试与计算部门先将获得数值按指定的修约位数多一位或几位报出,而后由其他部门判定。
为避免产生连续修约的错误,应按下列规则进行。
(6)报出数值最右的非零数字为5时,应在数值后面加“(+)”或“
(一)”或不加符号,以分别表明已进行过舍、进或未舍未进。
例如:
14.50(+)表示实际值大于14.50,经修约舍弃成为14.50;
14.50
(一)则表示实际值小于14.50,经修约进1成为14.50。
(7)如果判定报出值需要进行修约,当拟舍弃数字的第1个数字为5,而5后面无数字或皆为零时,报出值后面有(+)号者进1,报出值后面有
(一)号者舍去不计,其他仍按进舍规则
(1)至(3)条的规定进行。
例7将以下4个实测值修约到个位数后进行判定(报出值多留一位到一位小数):
21.4547,19.5204,21.5000,—15.4546
解:
实测值报出值修约值
21.454721.5
(一)21
19.520419.5(+)20
21.500021.522
一15.4546一15.5(-)一15
(8)表示测定精度时,标准偏差s在一般情况下,最多只取两位有效数字,除非测定次数在50次以上,方可再多取一位有效数字。
在对表示标准偏差的数值进行修约时,采取只进不舍的原则。
例如,计算得某样本标准偏差值为0.0654,依(8)的原则,它修约为0.066。
(9)对于有界限的数值,不允许采取数字修约规则进行修约;
对超出规定的允许偏差数值,也不允许修约。
例如,规定某产品的某质量指标界限为不大0.03,而实际报出的数据在字面上超出合格界限,如0.032,这时即使经数字修约后可以把报出的数据修约为合格数据,也是不允许的,而应当判此数据代表的质量指标为不合格。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十四章 数据的分类 第十四 数据 分类