2012高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): 2012 A 我们的参赛报名号为(模拟赛时填写队伍编号): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3 指导教师或指导教师组负责人 (打印并签名):
日期: 年 08 月 28 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编 号 专 用 页
评 阅 人 评 分 备 注 赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
摘要
本文用spss处理大量数据解决葡萄酒评价的有关问题。
针对问题一,求出每组评酒员对每种葡萄酒的评分均值和方差,用非参数检验里面的Wilcoxon符号秩检验判断两组评酒员的评价有显著性差异。然后根据方差的平均值判断第二组评酒员的评价更稳定、更可信。
针对问题二,利用主成分分析法将29个理化指标提取为8个,然后以贡献率为模型构造评价方程,把各个对象所对应的各项主成分指标代入上式,即可得到酿红葡萄酒葡萄的综合评价值以及得到的排序结果。
针对问题三,利用典型性相关分析得到第一典型变量,典型相关系数越大,关系越密切。发现相关系数很大,所以可以认为葡萄酒的理化指标与葡萄的理化指标有关系,即葡萄越好,葡萄酒越好。
针对问题四,首先进行正态性检验,发现得分符合正态分布。于是利用回归分析基础上的通径分析,求直接通径系数和间接通径系数,发现都不是很大。可见,不能用葡萄和葡萄酒的理化指标评价葡萄酒的质量。
关键词:Wilcoxon符号秩检验 主成分分析法 典型性相关分析 聚类分析 通径分析
1
葡萄酒的评价
一.问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二.问题的假设
1)假设附件二中的二级指标不如一级指标重要,可以舍弃; 2)假设附件三中的芳香物质的总和可以代表芳香物质; 3)假设每位评酒员的评分相互: 4)假设酿酒葡萄的优劣与葡萄酒相关: 5)假设题目中所给数据无误。
三.符号的说明
U1 红葡萄第一典型变量; V1 红葡萄第二典型变量;
U1' 白葡萄第一典型变量;
2
V1' 白葡萄第二典型变量;
X 葡萄的得分;
四.模型的建立与求解
4.1 基于非参数检验对问题一的求解
通过附件一中给出的各指标分数可知,对于每位评酒员每个样品满分为100分,每个样品所得分数反映了该位评酒员对此样品的综合评价,把一组内所有评酒员对同一样品的打分取平均,并求其方差如下:
表1 各个样品的平均得分及方差
3
由于是两组评酒员对同一组样品的打分,故应采用两个相关样本的显著性检验进行分析,又不清楚服从何种分布,故应采用的是相关样本的非参数检验,我们结合本题情况,采用的是非参数检验里面的Wilcoxon符号秩检验,得到如下结果:
表2 数据的Wilcoxon符号秩检验
由上表中的渐进显著性都远小于0.05,所以无论数值还是稳定性四组数据
都不想似,都具有显著差异。即可得到结论:两组评酒员的评价结果有显著性差异。
为了判断两组数据的可信度,我们做出更直观的方差图如下:
图1 两组对于白葡萄酒评价的稳定性分析比较
图2 两组对于红葡萄酒评价的稳定性分析比较
4
有以上两图可以定性看出第一组的方差多数情况下大于第二组,即第二组更加稳定,对各组方差求和再平均进行定量分析得:
表3 各组平均方差
同一种酒品质的优劣,本是定数,所得分数波动越小越好,所以不管定量还是定性,得到的结论都是第二组的评分更加可信。
综上所述,对于问题一,结论为:两组评酒员的评价结果有显著性差异,第二组的评分更加可信。
4.2 基于主成分分析对问题二的求解
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,酿酒葡萄的优劣直接影响了葡萄酒的质量,对酿酒葡萄的分级是必须的,但是所给的指标过于繁杂,不容易进行分类,为了简化步骤,我们先进性主成分分析。
首先我们放弃二级指标,只考虑一级指标,其中将芳香物质综合作为一个指标。并对其中果皮颜色进行处理,查资料得,葡萄酒的颜色来自果皮,红葡萄酒是用红葡萄或紫葡萄做成的,颜色深红。白葡萄酒大都是由白葡萄或绿葡萄做成的,所以果皮的颜色对酒的色泽会有影响,我们考虑对于红葡萄,以a-b作为指标,白葡萄则以b-a 作为指标。如此一来,对于红、白葡萄各有29个检测指标,先对白葡萄做主成分分析,得到如下表格:
表4 白葡萄的主成分分析
5
表格显示的是主成分分析的过程,我们看到初始特征值下面的合计栏,它的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,前10个主成分就是大于1的,所以我们只能说有10个主成分。这10个主成分与各个指标的关系如下:
表5 白葡萄10个主成分与各个指标的关系
用计算机计算各个样品中每个主成分的得分如下,得分大小表示优劣,得分越大,品质越好:
6
表6 白葡萄各主成分得分
进而得到白葡萄样品的排名为:
表7 白葡萄的排名
类似于白葡萄的主成分分析,可得到红葡萄的主成分分析如下:
7
表8 红葡萄的主成分分析
如图所示,前8个主成分就是大于1的,所以我们只能说有8个主成分。 最后可得到红葡萄样品的排名如下:
表9 红葡萄的排名
8
我们作如下定义:
X为得分,则 X2, 特级葡萄; 1X2, 一级葡萄; 0X1, 二级葡萄; 1X0, 普通葡萄; X1, 劣质葡萄; 则红、白葡萄的分类如下:
表10 白葡萄的分类 特级红葡萄 一级红葡萄 二级红葡萄 普通红葡萄 劣质红葡萄
样品3 样品2;样品9; 样品1;样品8;样品23;样品21;样品17;样品12;样品6;样品14;样品5;样品22;样品19;样品24; 样品18;样品7;样品15;样品13;样品16;样品20;样品27;样品4;样品26; 样品11;样品25;样品10; 表11 红葡萄的分类
特级白葡萄 一级白葡萄 二级白葡萄 普通白葡萄 劣质白葡萄 样品27 样品24 样品3;样品28;样品5;样品9;样品20;样品25;样品26;样品10;样品7;样品12;样品6;样品23; 样品15;样品22;样品18;样品2;样品11;样品4;样品19;样品13;样品21;样品14;样品17;样品8; 样品1;样品16; 4.3 基于典型相关系数分析对问题三的求解 如果把芳香物质的总和作为一个指标,并且只考虑一级指标,则红葡萄酒有10个指标,白葡萄酒有9个指标,但是酿酒葡萄的指标却都在30个左右。由于葡萄指标太多,我们考虑用典型相关分析,它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。为此我们首先进行聚类分析。
可以发现,酿酒葡萄的理化指标之间也具有某些联系,相关性强的几个里面指标里面只要选取一个就好。我们首先计算酿酒葡萄之间的相关系数,通过相关系数可以进行聚类,进而提取典型指标,酿酒葡萄之间的相关系数过多,我们选取部分展示如下:
表12 红葡萄之间的相关系数
9
图3 红葡萄的聚类分析树状图
我们分成8类,(11,13,10,12,26) (15,25) (2,19,21) (24,27,23) (14,28,3) (16,18,22,1,17,20) (4,9,6,8) (5,7,29)。
对白葡萄进行类似的分析可得如下结果:
表13 白葡萄之间的相关系数
10
图4 白葡萄的聚类分析树状图
分类得:(11,13,15,12) (1,6,14) (2,9,10,28,20) (3,26) (5,25,4,8) (19,21,16,18,17,22,7) (23,27,24) (29)
发现红葡萄和白葡萄有重叠的某些类,通过对比,我们考虑取氨基酸、蛋白质、VC、总糖、总酚、花色苷、果皮质量、芳香质八类指标作为酿酒葡萄的典型代表指标。
接下来典型相关分析:
表14 红葡萄和红葡萄酒之间的相关系数
11
表15 典型相关系数
第一典型相关系数为0.978,第二典型相关系数为0.914,第三典型相关系数为0.831,它们均比酿酒葡萄和葡萄酒指标两组间的任一个相关系数大,即综合的典型相关分析效果要好于简单相关分析。
表16 红葡萄标准化典型系数第一组
第一典型变量:
U1=-0.239*x1-0.108*x2-0.67*x3-0.944*x4+1.13*x5-0.007*x6-0.072*x7-0.108*x8
表17 红葡萄标准化典型系数第二组
12
第二典型变量:
V1=0.147*y1-0.447*y2+0.111*y3-0.259*y4-0.219*y5-0.219*y6+0.703*y7+1.093*y8+0.369*y9+0.239*y9+0.071*y10
下面研究白葡萄与白葡萄酒的关系,仿照上面方法得:
表18 白葡萄标准化典型系数第一组
第一典型变量:
U1'=-0.196*x1-0.715*x2-0.258*x3-0.146*x4+0.029*x5-0.359*x6-0.351*x7-0.293*x8
表19 白葡萄标准化典型系数第二组
第二典型变量:
V1'=0.099*y1-0.469*y2-0.449*y3+0.105*y4+0.070*y5-1.377*y6-0.844*y7-1.508*y8+0.102*y9
由于相关系数很接近于1,说明两组数据之间相关密切,即葡萄越好,葡萄酒越好。
13
4.4 基于通径分析对问题四的求解
为了分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,我们考虑采用通径分析,通径分析是用于分析多个自变量与因变量之间的线性关系,可以处理较为复杂的变量关系。计算步骤如下:x1与y的简单相关系数=x1与y的直接通径系数+x1与y的间接通径系数,直接通径系数可以通过回归分析求出,而x1与y的间接通径系数=x1与x2的简单相关系数*x2与y的直接通径系数+x1与x3的简单相关系数*x3与y的直接通径系数+x1与x4的简单相关系数*x4与y的直接通径系数+.......
首先我们对红葡萄酒的得分进行正态分布检验,结果如下:
表20 红葡萄酒得分的正态分布检验
显著水平=0.801>0.05,所以是正态分布,更直观的图如下:
图5 红葡萄酒得分的正态分布qq图
14
图6 残差图
这是正态分布qq图,发现在一条直线附近,从残差图也可看出误差集中在0附近,也说明符合正态分布,可以进行回归分析,我们采用逐步回归的方法求通径系数。
表21 红葡萄的R
2
可见R2最大为0.827,1R2为剩余因子,计算得0.416,可见这个值比较大,也就是说除了葡萄总黄酮,苹果酸,固酸比,果皮颜色,多分氧化酶活力这五个因素外,还有好多因素没有考虑到。 求得的直接通径系数如下:
15
表22 红葡萄的直接通径系数
如果考虑代表性的自变量有5个,那么系数分别是0.506,-0.437,0.338,-0.386,-0.219,接下来计算间接相关系数。
表23 红葡萄与红葡萄酒的简单相关性
16
表24 红葡萄与红葡萄酒的简单相关系数
发现无论直接通径系数还是间接通径系数都很小,所以不能通过理化指标评价红葡萄酒的质量。
用类似的办法对白葡萄和白葡萄酒进行分析得:
表25 白葡萄与白葡萄酒的简单相关系数
发现无论直接通径系数还是间接通径系数也都很小,所以也不能通过理化指标评价白葡萄酒的质量。
五.模型的评价
优点:1)题目求解过程中问题一中稳定性用折线图表示,比较直观,易于比较; 2)问题二中用主成分分析发简化了繁杂的步骤,使求解更加简单;
3)问题三中先通过聚类分析再提取典型指标,使得提取的指标更加具有 代表性。
17
缺点:1)问题二中对葡萄的分级求解时,提取的主成分不一定是真正影响葡萄质量的指标,没有考虑各种实际和主观因素;
2)问题三中聚类后对有代表性指标的选取过于随意,所选取的不一定是最有代表性的;
3)问题四只选取了五样代表性的指标讨论,选取指标更多一些,结果会更准确,更有说服力。
参考文献
【1】统计分析在葡萄酒质量评价中的应用 李运,李记明,姜忠军 【2】姜启源,谢金星,叶俊.数学模型.高等教育出版社.2011.1 【3】模糊数学理论及其应用 刘合香 科学出版社 【4】李继承.数学实验.高等教育出版社.2006.10
【5】SPSS统计分析方法及应用 薛薇 电子工业出版社
附录一
18
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务