第三章误差和分析数据的处理.docx
- 文档编号:16077236
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:23
- 大小:352.11KB
第三章误差和分析数据的处理.docx
《第三章误差和分析数据的处理.docx》由会员分享,可在线阅读,更多相关《第三章误差和分析数据的处理.docx(23页珍藏版)》请在冰点文库上搜索。
第三章误差和分析数据的处理
第三章误差和分析数据的处理
部门:
xxx
时间:
xxx
整理范文,仅供参考,可下载自行编辑
第三章误差和分析数据的处理
教案目的:
用数理统计的方法处理实验数据,将会更好地表达结果,既能显示出测量的精密度,又能表达出结果的准确度;介绍显著性检验的方法,用于检验样本值与标准值的比较、两个平均值的比较和可疑值的取舍。
教案重点:
总体平均值的估计;t检验法
教案难点:
对随机变量正态分布的理解;各种检验法的正确使用
定量分析的目的是通过一系列的分析步骤,来获得被测组分的准确含量。
但是,在实际测量过程中,即使采用最可靠的分析方法,使用最精密的仪器,由技术最熟练的分析人员测定也不可能得到绝对准确的结果。
由同一个人,在同样条件下对同一个试样进行多次测定,所得结果也不尽相同。
这说明,在分析测定过程中误差是客观存在的。
所以,我们要了解分析过程中误差产生的原因及出现的规律,以便采取相应措施减小误差,并进行科学的归纳、取舍、处理,使测定结果尽量接近客观真实值b5E2RGbCAP
3-1误差及其产生的原因
分析结果与真实值之间的差值称为误差
分析结果大于真实值,误差为正;
分析结果小于真实值,误差为负。
根据误差的性质与产生的原因,可将误差分为1.系统误差
系统误差又称可测误差,是由某种固定的原因引起的误差。
它的突出特点是:
A、单向性:
它对分析结果的影响比较固定,可使测定结果系统偏高或偏低。
B、重现性:
当重复测定时,它会重复出现。
C、可测性:
一般来说产生系统误差的具体原因都是可以找到的。
因此也就能够设法加以测定,从而消除它对测定结果的影响,所以系统误差又叫可测误差。
如:
未经校正的砝码或仪器。
根据系统误差产生的具体原因,又可把系统误差分为:
①、方法误差:
是由分析方法本身不够完善或有缺陷而造成的,如:
滴定分析中所选用的指示剂的变色点和化学计量点不相符;分析中干扰离子的影响未消除;重量分析中沉淀的溶解损失而产生的误差。
②、仪器误差:
由仪器本身不准确造成的。
如:
天平两臂不等,滴定管刻度不准,砝码未经校正。
③、试剂误差:
所使用的试剂或蒸馏水不纯而造成的误差。
④、主观误差<或操作误差)
由操作人员一些生理上或习惯上的主观原因造成的,如:
终点颜色的判断,有人偏深,有人偏浅。
重复滴定时,有人总想第二份滴定结果与前一份相吻合。
在判断终点或读数时,就不自觉地受这种“先入为主”的影响。
2.偶然误差<或称随机误差,未定误差)
它是由某些无法控制和避免的偶然因素造成的。
如:
测定时环境温度、湿度、气压的微小波动,仪器性能的微小变化,或个人一时的辨别的差异而使读数不一致等。
如:
天平和滴定管最后一位读数的不确定性。
它的特点:
大小和方向都不固定,也无法测量或校正。
除这两种误差外,往往可能由于工作上粗枝大叶不遵守操作规程等而造成的“过失误差”。
如:
器皿不洁净,丢损试液,加错试剂,看错砝码、记录或计算错误等。
3-2测定值的准确度与精密度p1EanqFDPw
一、准确度与误差
1.准确度
测定值与真实值相符合的程度,用误差的大小是衡量
2.误差的表示方法
绝对误差=测定值-真实值
误差愈小,表示分析结果的准确度愈高,反之,误差愈大,准确度就越低。
相对误差%=(绝对误差/真实值>×100%
相对误差表示误差在测定结果中所占的百分率。
若绝对误差相同,真实值越大则相对误差越小.
如:
对于1000g和10g,绝对误差相同(±1g>,
但产生的相对误差却不同。
前者为0.1%,后者为10%,
所以分析结果的准确度常用相对误差表示。
绝对误差和相对误差都有正值和负值。
正值表示分析结果偏高,负值表示分析结果偏低。
二、精密度与偏差
1.精密度
在相同条件下多次测定结果相互吻合的程度表现了测定结果的重现性,其高低用“偏差”来表示偏差越小说明分析结果的精密度越高。
DXDiTa9E3d
2.偏差的表示方法
一>绝对偏差、平均偏差和相对平均偏差
值得注意的是:
平均偏差不计正负号,而个别测定值的偏差要记正负号。
使用平均偏差表示精密度比较简单,但这个表示方法有不足之处,因为在一系列的测定中,小偏差的测定总是占多数,而大偏差的测定总是占少数,按总的测定次数去求平均偏差所得的结果偏小,大偏差得不到充分的反映。
所以,用平均偏差表示精密度方法在数理统计上一般是不采用的。
RTCrpUDGiT
<二)标准偏差和相对标准偏差
近年来,在分析化学的教案中,愈来愈广泛地采用数理统计方法来处理各种测定数据。
在数理统计中,我们常把所研究对象的全体称为总体<或母体);自总体中随机抽出的一部分样品称为样本<或子样);样本中所含测量值的数目称为样本容量)。
5PCzVD7HxA
例如,我们对某一批煤中硫的含量进行分析,首先是按照有关部门的规定进行取样、粉碎、缩分,最后制备成一定数量的分析试样,这就是供分析用的总体。
如果我们从中称取10份煤样进行平行测定,得到10个测定值,则这一组测定结果就是该试样总体的一个随机样本,样本容量为10。
jLBHrnAILg
若样本容量为n,平行测定次数分别为x1,x2,x3,…,xn,则其样本平均值为:
当测定次数无限增多,既n→∞时,样本平均值即为总体平均值μ:
若没有系统误差,且测定次数无限多<实用上n>30次)时,则总体平均值μ就是真实值T。
各测定值与总体平均值μ的偏离程度用xHAQX74J0X
总体标准偏差(s>
但是,在分析化学中测定次数一般不多(n<20>,而总体平均值又不知道,故只好用样本的标准偏差S来衡量该组数据的分散程度。
LDAYtRyKfE
样本标准偏差
式中:
它是指在n次测量中,只有n-1个可变的偏差 例如三次测定只有两个可变的偏差,因为另一个可由三个值的和减去其中两个数据之和计算得出.这里引入 Zzz6ZB2Ltk 很明显,当测定次数非常多时,测定次数n与自由度 即 此时,S→s 相对标准偏差<亦称变异系数) 标准偏差比平均偏差更能反应数据的精密度 例如用碘量法测定某铜合金中铜的百分含量,得到两批数据,每批有10个。 测定的平均值为10.0%。 各次测量的偏差分别为: dvzfvkwMI1 第一批di: +0.3,-0.2,-0.4*,+0.2,+0.1,+0.4*,±0.0,-0.3,+0.2,-0.3rqyn14ZNXI 第二批di: ±0.0,+0.1,-0.7*,+0.2,-0.1,-0.2,+0.5*,-0.2,+0.3,+0.1EmxvxOtOco 试以平均偏差表示两批数据的精密度 两批数据平均偏差相同为0.24%,但第二批数据明显比第一批数据分散。 第一批较大偏差-0.4~+0.4 第二批较大偏差-0.7~+0.5 若用标准偏差计: S1=0.28%S2=0.33% (三>平均值的标准偏差 如果从同一总体中随机抽出容量相同的m个样本,由此可以得到一系列样本的平均值。 实践证明,这些样本平均值也并非完全一致,它们的精密度可以用平均值的标准偏差来衡量。 显然,与上述任一样本的各单次测定值相比,这些平均值之间的波动性更小,即平均值的精密度较单次测定值的更高SixE2yXPq5 因此,在实际工作中,常用样本的平均值对总体平均值μ进行估计。 统计学证明,平均值的标准偏差与单次测定值的标准偏差s之间有下述关系。 对于有限次的测定则有: 称样本平均值的标准偏差 由以上两式可以看出,平均值的标准偏差与测定次数的平方根成反比。 因此增加测定次数可以减小随机误差的影响,提高测定的精密度。 但当n>5,减小的趋势变慢,除了偏差之外,还可以用极差R来表示样本平行测定值的精密度。 极差又称全距,是测定数据中的最大值与最小值之差,其值愈大表明测定值愈分散。 由于没有充分利用所有的数据,故其精确性较差。 偏差和极差的数值都在一定程度上反映了测定中随机误差影响的大小。 三、准确度和精密度的关系 从以上的讨论可知,系统误差是定量分析中误差的主要来源,它影响分析结果的准确度; 偶然误差既影响分析结果的精密度。 又影响分析结果的准确度所以 1.精密度好不一定准确度高。 (只有在消除了系统误差之后,精密度好,准确度才高>。 2.准确度高一定需要精密度好, 若精密度很差,说明所测结果不可靠,已失去衡量准确度的前提。 因此,我们在评价分析结果的时候,还必须将系统误差和偶然误差的影响结合起来考虑,以提高分析结果的准确度。 kavU42VRUs 3-3随机误差的正态分布 一、频率分布 在相同条件下对某样品中镍的质量分数<%)进行重复测定,得到90个测定值如下: 1.601.671.671.641.581.641.671.621.571.60y6v3ALoS89 1.591.641.741.651.641.611.651.691.641.63M2ub6vSTnP 1.651.701.631.621.701.651.681.661.691.700YujCfmUCw 1.701.631.671.701.701.631.571.591.621.60eUts8ZQVRd 1.531.561.581.601.581.591.611.621.551.52sQsAEJkW5T 1.491.561.571.611.611.611.501.531.531.59GMsIasNXkA 1.661.631.541.661.641.641.641.621.621.65TIrRGchYzg 1.601.631.621.611.651.611.641.631.541.617EqZcWLZNX 1.601.641.651.591.581.591.601.671.681.69lzq7IGf02E 1.分组 量大时分为10-20组,容量小时 2.再将全部数据由小至大排列成序,找出其中最大值和最小值,算出极差R。 由极差除以组数算出组距。 本例中的R=1.74%-1.49%=0.25%,组距=R/9=0.25%/9=0.03%。 每组内最大值和最小值相差0.03%zvpgeqJ1hk 即: 1.48-1.51,1.51-1.54等等。 为了使每一个数据只能进入某一组内,将组界值较测定值多取一位。 即: NrpoJac3v1 1.485-1.515,1.515-1.545,1.545-1.575等等。 3.统计测定值落在每组内的个数<称为频数), 4.再计算出数据出现在各组内的频率<即相对频数=频数/总数)。 分组<%)频数频率 1.485-1.51520.0221nowfTG4KI 1.515-1.54560.067fjnFLDa5Zo 1.545-1.57560.067tfnNhnE6e5 1.575-1.605170.189HbmVN777sL 1.605-1.635220.244V7l4jRB8Hs 1.635-1.665200.22283lcPA59W9 1.665-1.695100.111mZkklkzaaP 1.695-1.72560.067AVktR43bpw 1.725-1.75510.011ORjBnOwcEd ∑901.00 由图可以看出,测定数据的分布并非杂乱无章,而是呈现出某些规律性。 测定值出现在平均值附近的频率相当高,具有明显的集中趋势;而与平均值相差越大的数据出现的频率越小。 当测定次数无限增多,组距无限减少,直方图趋于一条连续曲线即2MiJTy0dTT 二、正态分布 正态分布,又称高斯分布,它的数学表达式即正态分布函数式为: 若以x-µ为横坐标.以y(出现的频率>为纵坐标作图即 综上所述,一旦μ和σ确定后,正态分布曲线的位置和形状也就确定,因此μ和σ是正态分布的两个基本参数,这种正态分布用N<μ,σ2)表示。 gIiSpiue7A 正态分布曲线关于直线x=μ呈钟形对称,且具有以下特点: 1.对称性绝对值大小相等的正负误差出现的概率相等,因此它们常可能部分或完全相互低消。 2.单峰性峰形曲线最高点对应的横坐标x-μ值等于0,表明随机误差为0的测定值出现的概率密度最大。 3.有界性一般认为,误差大于真正负3σ的测定值并非是由随机误差所引起的。 也就是说,随机误差的分布具有有限的范围,其值大小是界的。 uEh0U1Yfmh 由于μ和σ不同时就有不同的正态分布,曲线的形状也随之而变化。 为了使用方便,将正态分布曲线的横坐标改用u来表示<以σ为单位表示随机误差),并定义IAg9qLsgBX 即得到 三、标准正态分布 曲线的形状与μ和σ的大小无关。 正态分布曲线与横坐标之间所夹的总面积表示来自同一总的全部测定值或随机误差 在上述区间出现概率的总和为100% 四、随机误差的区间概率 以上概率值表明,对于测定值总体而言,随机误差在±2σ范围以外的测定值出现的概率小于0.045,即20次测定中只有1次机WwghWvVhPE 随机误差超出±3σ的测定值出现的概率更小。 平均1000次测定中只有3次机会。 通常测定仅有几次,不可能出现具有这样大误差的测定值。 如果一旦发现,从统计学的观点就有理由认为它不是由随机误差所引起,而应当将其舍去,以保证分析结果准确可靠。 asfpsfpi4k 表3-1正态分布概率积分表 |u|面积|u|面积|u|面积ooeyYZTjj1 0.00.00001.10.36432.20.4821BkeGuInkxI 0.10.03981.20.38492.20.4861PgdO0sRlMo 0.20.07931.30.40322.30.48933cdXwckm15 0.30.11791.40.41922.40.4918h8c52WOngM 0.40.15541.50.43322.50.4938v4bdyGious 0.50.19151.60.44522.580.4951J0bm4qMpJ9 0.60.22581.70.45542.60.4953XVauA9grYP 0.70.25801.80.46412.70.4965bR9C6TJscw 0.80.28811.90.47132.80.4974pN9LBDdtrd 0.90.31591.960.49503.00.4987DJ8T7nHuGT 1.00.34132.00.4773∞0.5000QF81D7bvUA 概率积分面积表的另一用途是由概率确定误差界限。 例如要保证测定值出现的概率为0.95,那么随机误差界限应为±1.96σ。 4B7a9QFw9h 例1经过无数次测定并在消除了系统误差的情况下,测得某钢样中磷的质量分数为0.099%。 已知σ=0.002%,问测定值落在区间0.095%-0.103%的概率是多少? ix6iFA8xoX 解: 根据得 |u|=2,由表3-1查得相应的概率为0.4773,则 P<0.095%≤x≤0.103%)=0.4773×2=0.955 3-4有限测定数据的统计处理 一、置信度与μ的置信区间 置信区间: 根据有限的测定结果来估计μ可能存在的范围 平时分析中测定次数是很有限的,总体平均值不知。 但是随机误差的分布规律表明,测定值总是在以μ为中心的一定范围内波动,并有着向μ集中的趋势。 wt6qbkCyDE 因此,根据测定结果来估计μ可能存在的范围.,该范围愈小,说明测定值与μ愈接近,即测定的准确度愈高。 但由于测定次数毕竟较少,由此计算出的置信区间也不可能以百分之百的把握将μ包含在内,只能以一定的概率进行判断。 Kp5zH46zRk 置信度: 指一定的慨率(用P表示> <一)已知总体标准偏差s时 对于经常进行测定的某种试样,由于已经积累了大量的测定数据,可以认为s是已知的。 根据 <3-14)式并考虑u的符号可得: <3-14a) 此式表示测定值出现的区间,与u有关,u的大小由概率决定。 例如,当u=±1.96时。 概率为0.95即x在μ-1.96s至μ+1.96s区间出现的概率为0.95。 Yl4HdOAA61 如果希望用单次测定值x来估计μ可能存在的范围,根据 <3-14b) 当u=±1.96时,则可以认为区间x±1.96s能以0.95的概率将真值包含在内 由于平均值较单次测定值的精密度更高,因此常用样本平均值来估计真值所在的范围。 此时有 (3-17> 式<3-14b)和式<3-17)分别表示在一定的置信度时,以单次测定值x或以平均值为中心的包含真值的取值范围,即μ的置信区间。 式中的u值可由表3-1中查到,它与一定的置信度相对应。 它表明了人们对所作的判断有把握的程度ch4PJx4BlI 在对真值进行区间估计时,置信度的高低要定得恰当。 一般以95%或90%的把握即可。 式<3-14b)和式<3-17)还可以看出置信区间的大小取决于测定的精密度和对置信度的选择,对于平均值来说还与测定的次数有关。 当s一定时,置信度定得愈大,∣u∣值愈大,置信区间大,过大的置信区间将使其失去实用意义。 若将置信度固定,当测定的精密度越高和测定次数越多时,置信区间越小,表明x越接近真值,即测定的准确度越高。 qd3YfhxCzo <二)已知样本标准偏差S时 在实际工作中,测定次数较少,测定值或随机误差就不呈正态分布,而遵从t分布,需采用另一新统计量tP,f取代uE836L11DO5 (3-18> t分布法: t值的定义: 以t值为横坐标,概率密度为纵坐标作图即得到t分布曲线见图3-6,从图可以看出: 在置信度相同时,t分布曲线的形状随f 当f→∞时,t分布曲线就与正态分布曲线合为一体,因此可以认为正态分布就是t的极限S42ehLvE3M 图3-6t分布曲线 与正态分布曲线一样,t分布曲线下面某区间的面积也表示随机误差在此区间的概率。 但t值与标准正态分布中的u值不同它不仅与概率还与测定次数有关 不同置信度和自由度所对应的t值见表3-2中。 由表3-2中的数据可知,随着自由度的增加,t值逐渐减小并与u值接近。 当f=20时,t与u已经比较接近。 当f→∞时,t→u,S→s。 在引用t值时,一般取0.95置信度。 501nNvZFis 根据样本的单次测定值x或平均值分别表示μ的置信区间时,根据t分布则可以得出以下的关系: 此式将以一定的置信度将真值包含在内。 该范围越小,测定的准确度越高。 置信区间的大小与tP,f、S、n均有关,而且tP,f与S实际也都受n的影响,即n值越大,置信区间越小。 测定的准确度越高jW1viftGw9 二、可疑测定值的取舍 误差是客观存在的,因此,平行测定的数据总是参差不齐,有时会出现一二个与其结果相差较大的测定值,(称为可疑值或异常值>,如果已经证明是由于过失误差造成的,舍去该.如果原因不明就必须按照一定的统计方法进行检验,然后再作出判断xS0DOYWHLP 误差是客观存在的,因此,平行测定的数据总是参差不齐,有时会出现一二个与其结果相差较大的测定值,(称为可疑值或异常值>,可疑值要不要呢LOZMkIqI0w 如果已经证明是由于过失误差造成的,舍去该.如果原因不明就必须按照一定的统计方法进行检验,然后再作出取舍的判断ZKZUQsUJed <一)Q检验法 1.计算Q值: Q计=x疑—x相邻/x最大—x最小 Q值越大,x疑离群越远,远到一定程度就舍弃 2.查QP,nP59 若Q计>QP,n,则以一定的置信度弃去可疑值,反之则保留, 分析化学中通常取0.90的置信度。 如果测定数据较少,测定的精密度也不高,因Q与QP,n值接近而对可疑值的取舍难以判断时,最好补测1-2次再进行检验就更有把握。 dGY2mcoKtT 如果没有条件再做测定,则宜用中位数代替平均值报告结果。 因是否取舍可疑值对平均值的影响较大,对中位值的影响较小。 rCYbSWRLIA <二)格鲁布斯法 1.计算统计量G G计=x疑一x平/S 2.查GP,n若G计>GP,n 说明可疑值对相对平均值的偏离较大,则以一定(0.90或0.95>的置信度弃去可疑值,反之则保留。 在运用格鲁布斯法判断可疑值的取舍时,由于引入了t分布中最基本的两个参数x和s,故该方法的准确度较Q法高,因此得到普遍采用。 FyXjoFlMWh 前面用统计方法对可疑值作出了取舍的判断,在实际工作中往往会遇到对标准试样测定时.其平均值与标准值不完全一样,这种误差到底是由系统误差引起的还是由随机系统误差引起的,象这情况就需要作TuWrUpPObX 三、显著性检验 其实质是检验新方法有无系统误差,即检验新方法的平均值同已知的真值xT或理论值之间有无显著差异。 若有,就说明存在明显的系统误差,反之,纯属随机系统误差引起的.认为是正常的,从而对分析方法的准确度作出评价。 7qWAq9jPqE 具体作法如下: 定量分析中常用的有t检验法 •先算出平均值和平均值的标准偏差 •按下式计算t 查表tP,f(57页>, 若t>tP,f,说明与T之差已超出随机误差的界限,就可以按照相应的置信度判断它们之间存在显著性差异 如置信度定得过低(tP,f小>,则容易将随机误差引起的差异判断为显著性差异,如置信度定得过高,又可能将系统误差引起的不一致认同为正常差异,从而得出不合理的结论。 在定量分析中,常采用0.95或0.90的置信度llVIWTNQFk 5-5有效数字及其运算规则 在科学实验中,为了得到准确的测量结果,不仅要准确地测定各种数据,而是还要正确地记录和计算。 例如用重量法测定硅酸盐中的SiO2时,若称取试样重为0.4538克,经过一系列处理后,灼烧得到SiO2沉淀重0.1374克,则其百分含量为: yhUQsDgRT1 SiO2%=(0.1374/0.4538>×100%=30.277655354% 上述分析结果共有11位数字,从运算来讲,并无错误。 但实际上用这样多位数的数字来表示上述分析结果对不对呢? MdUZYnKS8I 这就必须了解“有效数字”的意义。 一、有效数字的意义及位数 1、有效数字 是指在分析工作中实际上能测量到的数字。 2、有效数字的意义 A代表一个量 B代表一个测量的准确程度 0.54300.543 ? ? 3、有效数字位数的确定 全部准确数+最后一位不确定的数有效数字位数的多少反映了测量的准确度, 位数越多,测量也越准确,须根据测定方法和使用仪器的准确程度来决定。 这就必须了解“有效数字”的意义。 例如称得某物重为0.5180克,它表示该物实际重量是0.5180±0.0001克,其相对误差为: (±0.0001/0.5180>×100%=±0.02% 如果少取一位有效数字,则表示该物实际重量是0.518±0.001克,其相对误差为: (±0.001/0.518>×100%=±0.2% 表明测量的准确度后者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 误差 分析 数据 处理