葡萄酒质量的评价.docx
- 文档编号:13455800
- 上传时间:2023-06-14
- 格式:DOCX
- 页数:45
- 大小:218.54KB
葡萄酒质量的评价.docx
《葡萄酒质量的评价.docx》由会员分享,可在线阅读,更多相关《葡萄酒质量的评价.docx(45页珍藏版)》请在冰点文库上搜索。
葡萄酒质量的评价
葡萄酒质量的评价
2020年5月
塞年的企业咨询赖问经验.经:
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则•
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)我们参赛选择的题号是(从A/B/C/D中选择一项填写):
A
(隐去论文作者相关信息)
日期:
2012年9月10日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评阅人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒质量的评价
摘要
葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。
本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。
首先,采用双因子可重复方差分析方法,对红、白葡萄酒评分结果分别进行检验,利用Matlab软件得到样品酒各个分析结果,结合数据分析,发现对于红葡酒有的评价结果存在显著性差异,对于白葡萄酒只有53%的评价结果存在显著性差异。
通过比较可知,两组评酒员对红葡萄酒的评分结果更具有显著性差异,而对于白葡萄酒的评分,评价差异性较为不明显。
为了评价两组结果的可信度,借助Alpha模型用克伦巴赫系数衡量,并结合检验,得出红葡萄酒第一组评酒员的评价结果可信度更高,而对白葡萄酒的品尝评分,第二组评酒员的评价结果可信度更高。
综合来看,主观因素对葡萄酒质量的评价具有不确定性。
结合已分析出的两组品酒师可靠性结果,对葡萄酒的理化指标进行加权平均,最终得出十位品酒师对样品酒的综合评价得分。
将每一样品酒的综合得分与其所对应酿酒葡萄的理化指标(一级指标)共同构成一个数据矩阵,采用聚类分析法,利用SPSS软件对葡萄酒样进行分类,根据分类的结果以及各葡萄样品酒综合得分最终将酿酒葡萄分为A(优质)、B(良好)、C(中等)、D(差)四个等级,客观地反映了酿酒葡萄的理化指标与葡萄酒质量之间的联系
为了分析酿酒葡萄与葡萄酒理化指标之间的联系,采用相关分析法,能有效地反映出两者间的联系,取与葡萄各成分相关性显著的葡萄酒理化指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。
由于已经通过回归分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此从酿酒葡萄成分对葡萄酒的理化指标的影响,再研究出葡萄酒理化指标与葡萄酒质量的联系,便可作为一个桥梁,反映出葡萄与葡萄酒理化指标对葡萄酒的质量的作用。
研究葡萄酒理化指标与葡萄酒质量的联系,需要运用变量间的相关性及系数法分析葡萄酒的理化指标与葡萄酒质量评价指标的相关性,通过比较选出与葡萄酒评价的一级指标相关性程度大的葡萄酒成分,进行回归分析法,建立酿酒葡萄的理化指标与葡萄酒质量之间的拟合方程,结合各个质量一级指标的权重,从而完成了从葡萄酒成分对葡萄酒质量的客观评价。
综合计算结果,与酿酒葡萄分级的结果吻合,所以分析结果较客观。
关键词:
葡萄酒双重多因素分析数据分析Alpha模型聚类分析及欧式距离相关性分析多元回归系数法
1.问题重述
葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿
酒葡萄的成分数据。
试建立数学模型求解下列问题:
1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄
和葡萄酒的理化指标来评价葡萄酒的质量?
2.问题分析
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。
问题一:
要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。
通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下:
图表1红葡萄酒样品12差异图(左边),系列1为第二组品酒员打分均值,系列2为第一组品酒员打分均值。
图表2红葡萄酒样品15差异图(右边),横坐标为10个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价。
针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒进行分开地显著性检验。
第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的27种葡萄样品酒各个分析结果。
比较27个显著性检验的结果,若具有显著性差异的样品酒占总样品酒的比例高于,有足够的把握认定两组评酒员的评价结果具有显著性差异
第二步,对两组评酒员给予红、白葡萄酒的打分进行可信性分析,将红、白葡萄酒分别进行可信度分析,比较两组评酒员对不同种类葡萄酒的评价是否具有各自的优势。
在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:
1.对于附件1给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。
将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共20行。
2.针对红葡萄酒样品20评酒员4号对色调的评分缺失,利用同组评酒员对红葡萄酒样品20色调评分的平均值作为4号评酒员的评分值。
做可信度分析时,将两组的27种酒样品评价结果组成两组评价总矩阵,以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共270行,分别用SPSS19.0对两组矩阵进行信度分析,目的是对量表的可靠性与有效性进行检验,判断出哪一组可信度更高。
问题二:
问题二要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响葡萄酒的质量,选取优质营养成分高的酿酒葡萄酿酒,保证了葡萄酒的营养价值和保健价值。
但是葡萄酒质量优劣,不单单从营养成分和养身价值上考虑,一瓶优质的葡萄酒,还得具备着可观赏性,纯正的口感、芬芳的酒香等优点,而这些优点,都得由评酒员来给出评价。
所以,对酿酒葡萄进行分级,不单单从葡萄的成分上考虑,还得结合最终酿成的葡萄酒质量综合考虑。
因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来,进行聚类分析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。
依据:
在进行据聚类分析之前,需要对原始数据进行预先处理
1.分别计算附件一中评酒员各项评分指标的权重并加和,最后求取10位评酒员的权重平均值作为葡萄酒样品的综合评价指标。
2.用酿酒葡萄各项理化指标(多次测得的取平均值)以及酒样的综合指标形成一个31列28行的原始资料阵,并用SPSS的标准化将数据标准化。
问题三:
酿酒葡萄和葡萄酒的理化指标都很多,为了找出它们之间的联系,首先将葡萄的成分与葡萄酒的理性指标列成一个大矩阵,分析葡萄成分与葡萄酒理想指标的相关性,找出它们之间相关性大的指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。
1.酿酒葡萄的成分和葡萄酒的理化指标列成一个大矩阵。
2.通过SPSS软件做相关性分析,选取与葡萄酒理化指标相关性程度大的葡萄酒成分个指标,建立拟合方程。
问题四:
酿酒葡萄的理化指标并不能直接与葡萄酒的质量建立联系,由于在问题3中已经通过相关性分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此我们分析葡萄酒的理化指标与葡萄酒质量的相关性,计算相关性系数,通过比较选出系数高的即与葡萄酒质量指标相关性程度大的葡萄酒成分,进而用回归分析法建立酿酒葡萄的理化指标与葡萄酒质量之间的关系
1•附表一中列出了十位品酒员对葡萄酒外观、香气和口感分析三者的数据,用
Matlab7.6.0b,分别对四项指标求27(28)种红(白)葡萄酒样品权重平均值作为葡萄酒质量的评价指标。
2•通过SPSS软件作因子分析分析两者之间的相关性,选取与葡萄酒质量指标相关性程度大的葡萄酒成分个指标,建立拟合方程。
3.符号说明
显著性水平
置信度
误差平方和
行组间误差
列组间误差
组内误差
克伦巴赫系数
明考斯基距离
欧式距离
4.模型假设
(1)假设数据来源真实有效
(2)假设各变量的相差微小,各坐标对欧式距离的贡献是同等的且变差大小相同,欧氏距离效果理想。
(3)假设酿酒工艺条件相同,无其他人为因素影响
(4)为低信度,则尚可,若则属于高信度。
假设组一与组二评分分别处于不同
信度区间,可信度差异明显
5.建模过程
5.1.问题一的建模与求解
模型建立:
利用双因素可重复方差分析结合0-1分析检验两组评酒员的评价结果有无显著
性差异
1.双因子可重复方差分析的统计模型。
假设在两因子方差分析中,因子共有个水平,记作,每个水平下,进行次试验,因子共有个水平。
一个典型的双因子方差分析的数据结构如下表所示。
表格1双因子可重复方差分析的数据结构
因子
因子
・・・
?
?
?
?
?
・・・
・・・
・・・
・・・
?
?
?
?
・・・
为因子的某个水平下第试验所得结果,表示因子的第个水平,。
第列数据为因子的第个水平下所考察的变量取值,每一列为一个总体,=1,2,…,所以一个两因子方差分析的数据结构表里,共有个总体,在本题中,。
下表给出因子所对应的各个指标:
指标
外观澄
清度
外观色
调
香气纯
正度
香气浓
度
香气质
量
口感纯
正度
口感浓
度
口感持
久性
口感质
量
整体得
分
给出双因子可重复方差分析的原假设和备择假设:
当原假设为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两
组评酒员的评价结果存在着显著性影响因素。
当原假设为真时,说明选取的各个指标对评价结果没有显著性影响,在本题中,显然原假设是不成立的,后续的检验将证明这点。
2•两因子方差分析的方差分解。
(1)误差平方和。
每一个观察值与总平均值之间的离差平方和称为误差平方和,记作
其中,称为总均值。
(2)行组间误差。
双因子误差平方和分解的第一部分,称为行组间误差,记作
(3)列组间误差。
双因子误差平方和分解的第二部分,称为列组间误差,记作
⑷组内误差。
双因子误差平方和分解的第三部分,称为组内误差,记作
行组间误差衡量的是行因子不同水平之间的差异,列组间误差衡量的是列因
子不同水平之间的差异。
它们的误差值中既包含随即误差也包含了因子影响的系
统误差。
所以判断行(列)因子是否有显著性影响,主要考察行(列)组间误差和组内误差之间的差异大小。
如果行(列)组间误差和组内误差很接近,就认为行(列)因子无显著性影响。
反之,认为行(列)因子有显著性影响。
两因子方差分析的检验统计量。
其中。
根据单因素方差分析推导,有行组间误差服从自由度为的分布列组间误差服从自由度为的分布
剩余的列组服从自由度为的分布则两因素方差分析的检验统计量为如下两个:
(1)行检验统计量。
(2)列检验统计量。
双因子可重复方差分析的结果判定当显著性水平为时,如果,拒绝,说明两组评酒员的评价结果存在显著性差异;等价的值检验是,当值<时,拒绝原假设;综合来讲,当,或值<时,拒绝原假设。
0-1数据分析在给定条件下,对于有个样品酒来说(红葡萄酒,白葡萄酒),定义函数:
(1)
其中为每个样品酒的值。
给定置信度:
(2)
对个样品酒的双因子可重复方差检验后,得出值,则认为在置信水平下,两组评酒员的评价结果存在着显著性差异
Alpha模型进行可靠性分析
克伦巴赫系数:
测度内部一致性的一个指标,与皮尔逊系数都是一样的范围在
0—1之间,如果为负值则表明表中某些项目的内容是其他一些项目的反面;越接近于1,则量表中项目的内部一致性越是高,可信度越大。
根据量表中的项目数和各项之间的相关系数计算得出
当量表中项目增加时,值也会增大;同时,项目之间的相关系数较高时,也会比较大。
这里的是指各项与其他各项之和计算相关系数的平均值。
模型求解:
双因子可重复方差分析模型检验
利用Matlab7.6.0的函数对已经预处理的数据进行双因子可重复方差分析,可以得到每个样品酒的检验结果,列举两个检验结果如下所示:
提取每个样品酒的所对应值,然后结合公式
(1)、公式
(2)进行0-1分析,得到红、白葡萄酒的各个样品酒的如下:
图表3模型检验结果
红葡萄酒值以及值,得到
0.18971
0.00001
0.00040
0.00212
0.16314
0.00138
0.00486
0.00334
0.02476
0.00000
0.00002
0.00011
0.36479
0.21870
0
1
1
1
0
1
1
1
1
1
1
1
0
0
0.00046
0.80100
0.00021
0.56414
0.17544
1.00000
0.00002
0.04686
0.01131
0.00017
0.00086
0.00112
0.00045
1
0
1
0
0
0
1
1
1
1
1
1
1
白葡萄酒值以及值,得到
0.00103
0.00001
0.10777
0.31115
0.50613
0.01060
0.34940
0.67936
0.00329
0.00460
0.00008
0.08585
0.00011
0.20310
1
1
0
0
0
1
0
0
1
1
1
0
1
0
0.01714
0.03333
0.01381
0.19476
0.00339
0.44078
0.00034
0.00005
0.68334
0.46710
0.00031
0.16632
0.13648
0.00001
1
1
1
0
1
0
1
1
0
0
1
0
0
1
模型结果分析
分析图标3的结果,可以知道,对于红葡萄酒来说,对27个葡萄酒样品评
分检验中,有70.3%的评价结果中,两组评酒员的评价结果存在着显著性差异
(置信水平为95%)。
对于白葡萄酒的28个葡萄样品评分的检验,只有53%的评价结果中,两组评酒员的评价结果存在显著性检验(置信水平为95%)。
这样的结果,符合之前问题分析中,各个组队样品酒的评分均值差异图。
即:
两组评酒员对红葡萄的评分结果更具有显著性差异,而对于白葡萄酒的评分,两组
评酒员的评价差异性较不明显。
Alpha模型的可靠性分析
1.利用SPSS19.0进行可靠性统计量对红葡萄酒的两组品酒员评分的分析
第一组红葡萄酒可靠性统计量
第二组红葡萄酒可靠性统计量
基于标准化项的
项数
基于标准化项的
项数
.874
.906
10
.750
.786
10
若将某一项目从量表中剔除,则量表的平均得分、方差(每个项目得分与剩
余各项目得分间的相关系数、以该项目为自变量所有其他项目为应变量建立回归方程的值以及值将会改变。
有表知第一组数据中剔除了两项,增加到0.874,第
一组评酒员红葡萄酒的,组2尚有35%的内容未曾涉及,故信度不高
表格2第一组红葡萄酒
平方和
均方
人员之间
4947.218
267
18.529
人员内部项之间
31938.494
9
3548.722
1516.417
.000
残差
5623.506
2403
2.340
总计
37562.000
2412
15.573
总均值=7.31
42509.218
2679
15.868
类内相关
95%置信区间
使用真值0的F检验
性
下限
上限
值
单个测量
.409b
.362
.460
7.918
267
2403
.000
平均测量
.874c
.850
.895
7.918
267
2403
.000
表格3第二组红葡萄酒
平方和
均方
人员之间
1232.544
269
4.582
人员内部项之间
34017.040
9
3779.671
3293.639
.000
残差
2778.260
2421
1.148
总计
36795.300
2430
15.142
总均值=7.05
38027.844
2699
14.090
类内相关
95%置信区间
使用真值0的F检验
性
下限
上限
值
单个测量
.230
.191
.276
3.993
269
2421
.000
平均测量
.750
.703
.792
3.993
269
2421
.000
分析比较两者的F检验表明,=516.417<=3293.639,组2的显著性更强,而、
均小于0.01,表示两组该量表的重复度量效果良好。
综合分析结果表明,组一的评酒员可信度更高。
(2)可靠性统计量对白葡萄酒的两组品酒员评分进行分析
同样利用SPSS可靠性分析,建立Alpha模型对白葡萄酒的品酒员评分数据进行检验,发现不同种类的酒,因其酿造,成分的不同,品酒员对葡萄口感,质量的分析评价上有差异,得出第一组品酒员白葡萄酒的
、,组2的显著性更强,、均小于0.01表示两组该量表的重复度量效果良好。
综合分析结果表明,白葡萄酒组二的品酒员可信度更高。
5.2.问题二的建模与求解
模型建立:
聚类分析及欧式距离
对样品和指标(变量)进行分类主要采用聚类分析法,而求取样品以及类之间的距离有多种方法,其中主要使用欧式距离和最短距离法
(1)数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个样本有个指标,则每个变量可表示为,均值
标准方差
则标准化后
(2)聚类
距离:
对样品进行聚类时,“靠近”往往由某种距离来刻画。
若每个样品有个指标,故每个样品可以看成维空间中的一个点,个样品就组成维空间中的个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。
令表示第个样品的第个指标,表示第个样品与第个样品之间的距离,最常见最直观的计算距离的方法是:
明考斯基距离()
当时,
即为绝对距离
当时,
即为欧氏距离
当时
称为切比雪夫距离。
当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然
后用标准化后的数据进行计算。
系统聚类;,将个样品各自看成一类,然后规定样品之间的距离和类与类之
间的距离。
开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的样品都成一类为止,最终完成养分的分类。
计算类与类之间的距离主要有:
(1)最短距离法:
设、、分别为一类,则最短距离的计算公式为:
此时将类与类合并为类,则任意的类和的距离公式为依次下去,最终完成对样品的分类。
(2)最长距离法
将类与类合并为类,则任意的类和的距离公式为
(3)类平均法
将类与类合并为类,则任意的类和的距离公式为
(4)重心法将类与类合并为类,则任意的类和的距离公式为模型求解:
根据欧式距离对酿酒葡萄分类
(1)对红葡萄酒进行分类
将附件中的组一评酒员评价标准,算出各项所占权重并加和,最终求得十位品酒员对每个葡萄酒样品的平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过spss进行聚类分析,得到酒样品的八个类别,并列出每
个酒样品所对应的综合指标,得出下表以及聚类分析树状图
图表3:
不同来源红葡萄酒聚类分析
第一类
酒样品
12
18
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 葡萄酒 质量 评价