数据分析论文
目录
目录 .................................................................................................................................................. 1 摘要 .................................................................................................................................................. 2 关键词 .............................................................................................................................................. 2 引言 .................................................................................................................................................. 3 1 模型建立与检验........................................................................................................................... 3
1.1 模型假设........................................................................................................................... 3 1.2 变量解释: ....................................................................................................................... 3 1.3 本组数据来源 ................................................................................................................... 3 1.4 模型建立与问题的解决 ................................................................................................... 4 1.5 多重共线性诊断与消除 ................................................................................................. 6
1.5..1 多重共线性的诊断 ............................................................................................. 6 1.5.2 修正多重共线性 ................................................................................................... 6 1.5.3 模型建立 ............................................................................................................. 14
2 模型分析................................................................................................................................... 14
2.1 异方差检验 ..................................................................................................................... 15 2.2 自相关检验 ..................................................................................................................... 15 2.3 迭代法处理自相关 ......................................................................................................... 15 2.4 经济意义解释 ................................................................................................................. 16 3 结果分析..................................................................................................................................... 16 参考文献......................................................................................................................................... 17
1
摘要
我国土地资源稀缺,人口多而粮食需求量大,因此粮食产量的稳定增长,直接影响着人民生活和社会的稳定与发展。粮食生产的不稳定性对国民经济的影响是不可忽略的,主要体现在:粮食生产不稳定会引发粮食供求关系的变动,尤其当国家粮食储备不足的时候,很容易导致粮价上涨,从而影响整个宏观经济。因此,对关系国计民生的这个特殊农产品,我们不得不慎重对待。因此,分析粮食产量波动的原因,并据此提出相应的对策,对保障粮食生产持续稳定发展,具有重要意义。
关键词: 粮食产量;多重共线性;异方差,自相关
2
引言
众所周知,粮食是我们人类生命得以延续的最基础的物质条件,没有粮食这个物质基础,人类将无法生存。回顾我国粮食的生产情况,我们会发现,随着社会的发展,技术水平的提高,从整体来讲我过粮食产量呈上升的趋势。在改革开放(1978年)以前我国粮食产量缓慢增长,一直都存于30000万吨以下。改革开放后,我国粮食产量从30000万吨一路震荡走高,粮食生产得到快速发展,但波动也更频繁复杂。在1996年总产量首次跨上50000万吨的大台阶,达到了50453万吨,增长率为8.13%。但在2000年开始出现了几年的连续减产的现象,曾一路降到43069万吨的局面,一下子退回到十年前的水平,让人担忧。从2004年以来的5年里,我国粮食产量连续5年增产。在2008年粮食产量达到52870万吨,据中国农业部称,中国粮食产量可能达到历史最高水平。从历史的发展趋势中,不难看出粮食产量的波动性。因此,对我国粮食生产影响因素的实证研究就显得十分有必要,以此寻找我国粮食稳定增产的有效途径。
1 模型建立与检验
1.1 模型假设
1、粮食产量。作为被解释变量,假设它只与这5个变量有关。
2、播种面积。随着播种面积的减少,粮食产量也会相应的减产,二者成正相关的关系。 3、有效灌溉面积。指具有一定的水源,地块比较平整,灌溉工程或设备已经配套,在一般年景下,当年能够进行正常灌溉的耕地面积。在一般情况下,有效灌溉面积应等于灌溉工程或设备已经配备,能够进行正常灌溉的水田和水浇地面积之和。它是反映我国耕地抗旱能力的一个重要指标。与粮食产量成正相关
4、化肥使用量。化肥使用的减少,会使得粮食产量的减少,他们是正相关。 5、成灾面积。成灾面积的增加会使粮食产量减少,它们是负相关的关系。
6、粮食零售价格指数。粮食产量的增加,会导致粮食零售价格的降低,二者呈负相关。
1.2 变量解释:
; y — 粮食总产量(单位:万吨)
x1 — 粮食作物耕种面积(单位:千公顷); x2 — 有效灌溉面积(单位:千公顷); x3 — 化肥使用量(单位:万吨); x4 — 受灾面积(单位:千公顷); x5 — 粮食零售价格指数。
1.3 本组数据来源
本组数据来自《中华人民共和国统计年鉴》,选用了粮食总产量,粮食作物耕种面积,
有效灌溉面积,化肥使用量,受灾面积,粮食零售价格指数这6个指标,把这5个指标的1985—2004年这19年间的时间序列数据进行回归分析,来分析这些因素与粮食总产量的关系。以粮食产量作为因变量,其它5个指标作为解释变量进行实证分析。
数据如表1所示:
3
表1:中国1985—2004年的粮食产量和相关因素统计表
y粮
食总产量
年份 (万吨) 1985 1986 1987 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 30477 32056 37911 40755 44624 43529 44266 45649 44510 46662 50454 49417 51230 50839 46218 45264 45706 43070 46947 x1粮食x2有效x3化
肥使用量(万吨) 884.0 1269.4 1775.8 2357.1 2590.3 2805.1 2930.2 3151.9 3317.9 3593.7 3827.9 3980.7 4083.7 4124.3 4146.4 4253.8 4339.4 4411.6 4636.6 x4受
灾面积(千公顷) 50790 44526 44365 46991 38474 55472 51333 48829 55043 45821 46989 53429 50145 49981 54688 52215 47119 54506 37106 x5粮
食零售价格指数 101.3 103.7 103.5 103.9 100.2 99.9 99.8 110.9 109.3 106.2 114.1 121.3 95.2 108.6 124.3 127.7 148.7 134.4 107.5 作物耕作面灌溉面积(千积(千公顷) 公顷) 120587 117234 108845 112205 113466 112314 110560 110509 108544 110060 112548 112912 113787 113161 108463 106080 103891 99410 101606 44965.0 44888.1 44035.9 44917.2 47403.1 47822.1 48590.1 48727.9 48759.1 49281.2 50381.4 51238.5 52295.6 53158.4 53820.3 54249.4 54354.8 54014.2 54478.4 1.4 模型建立与问题的解决 多元线性回归的基本理论:
4
设随机变量y与一般变量x1,x2,x3...xp的理论线性回归模型为:
y01x12x2...pxp
其中0,1,...,p 是p+1个未知参数,0称为回归常数,1,...,p称为回归系数。y称为被解释变量(因变量),而x1,x2,x3...xp是p个可以精确测量并可控制的一般变量,称为解释变量(自变量)。是随机误差。且需满足以下四个假设该回归模型才可使用。
假设一:随机误差项0均值假定E(i)0,i0,1,2,...,n;
2假设二:随机误差项同方差var(i),i0,1,2,...,n ;
假设三:随机误差项不相关
假设四:随机误差项服从如下正态分布
i~N(0,2),i0,1,2,...ncov(i,j)0,(ij,i,j0,1,2,...n)。
数据分析
粮食产量和很多因素有关,本文选取粮食作物耕种面积,有效灌溉面积,化肥使用量,受灾面积,粮食零售价格指数等5个作为自变量对其进行多元线性回归分析。设该模型为:
y01x12x23x344x455x5
利用eviews软件,将y与x1~ x5进行多元拟合,得到表2,如下:
表2
Dependent Variable: Y
Method: Least Squares Date: 07/24/12 Time: 18:06 Sample: 1 19 Included observations: 19 Y=C(1)*X1+C(2)*X2+C(3)*X3+C(4)*X4+C(5)*X5+C(6)
Coefficien t Std. Error t-Statistic Prob. C(1) 0.484256 0.106805 4.533998 0.0006 C(2) -1.366636 0.310144 -4.406450 0.0007 C(3) 10.39516 1.014158 10.25005 0.0000 C(4) -0.047716 0.068975 -0.691778 0.5012 C(5) -34.82846 37.52837 -0.928057 0.3703 C(6) 30939.70 15823.26 1.955330 0.0724 Mean dependent
R-squared 0.953795 var 44188.38
5
S.D. dependent
Adjusted R-squared 0.936024 var
Akaike info
S.E. of regression 1426.137 criterion
Schwarz
Sum squared resid 26440250 criterion
Hannan-Quinn
Log likelihood -161.3464 criter.
Durbin-Watson
F-statistic 53.67073 stat Prob(F-statistic) 0.000000
25638.338 17.61542 17.91366 17.66589 2.267463
2
此可见,该模型R=0.953795,调整的R=0.936024很高,F=53.67073明显显著,但是当显著性=0.05时,x4,x5的T检验不显著,这表明可能存在很严重的多重共线性。
1.5 多重共线性诊断与消除
1.5..1 多重共线性的诊断
计算各解释变量的相关系数,通过eviews计算可得到:
表1-1
X1 X2 X3 X4 X5
-0.646109759-0.6916670650.0127768170-0.629697105
X1 1 6206513 7322418 120411 8040951
-0.6461097590.94156694180.18375810270.6415028666
X2 6206513 1 662869 052838 918169
-0.6916670650.94156694180.15418894740.5615913196
X3 7322418 662869 1 146317 711136
0.01277681700.18375810270.15418894740.2558421085
X4 120411 052838 146317 1 522771
-0.6296971050.64150286660.56159131960.2558421085
X5 8040951 918169 711136 522771 1
由相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,证实确实存在多重共线性. 1.5.2 修正多重共线性
用y分别与个解释变量做一元回归,结果如下。
表1—2 y对x1的一元回归结果
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:29 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
6
87274.48 27789.73 3.140529 0.0060 -0.390537 0.251636 -1.551992 0.1391
Mean dependent
R-squared 0.124103 var 44188.38
S.D. dependent
Adjusted R-squared 0.072580 var 5638.338
Akaike info
S.E. of regression 5429.870 criterion 20.13652
Schwarz
Sum squared resid 5.01E+08 criterion 20.23593
Hannan-Quinn
Log likelihood -189.2969 criter. 20.15334
Durbin-Watson
F-statistic 2.408679 stat 0.347197 Prob(F-statistic) 0.139081
表1—3 y对x2的一元回归结果
Dependent Variable: Y
Method: Least Squares Date: 07/24/12 Time: 19:32 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C -10045.54 13599.50 -0.738670 0.4702 X2 1.087677 0.272068 3.997818 0.0009 Mean dependent
R-squared 0.484576 var 44188.38
S.D. dependent
Adjusted R-squared 0.454257 var 5638.338
Akaike info
S.E. of regression 4165.290 criterion 19.60626
Schwarz
Sum squared resid 2.95E+08 criterion 19.70567
Hannan-Quinn
Log likelihood -184.2595 criter. 19.62309
Durbin-Watson
F-statistic 15.98255 stat 0.411841 Prob(F-statistic) 0.000932
7
C X1
表1—4 y对x3的一元回归结果
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:32 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C 29836.12 2227.343 13.39539 0.0000 X3 4.364503 0.643845 6.778812 0.0000 Mean dependent
R-squared 0.729954 var 44188.38
S.D. dependent
Adjusted R-squared 0.714069 var 5638.338
Akaike info
S.E. of regression 3014.960 criterion 18.95986
Schwarz
Sum squared resid 1.55E+08 criterion 19.05928
Hannan-Quinn
Log likelihood -178.1187 criter. 18.97669
Durbin-Watson
F-statistic 45.95229 stat 0.545909 Prob(F-statistic) 0.000003
表1—5 y对x4的一元回归结果
Dependent Variable: Y
Method: Least Squares Date: 07/24/12 Time: 19:32 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C 39352.44 12724.43 3.092668 0.0066 X4 0.099031 0.259154 0.382131 0.7071 Mean dependent
R-squared 0.008516 var 44188.38 Adjusted R-squared -0.049806 S.D. dependent 5638.338
8
var
Akaike info
S.E. of regression 5777.044 criterion
Schwarz
Sum squared resid 5.67E+08 criterion
Hannan-Quinn
Log likelihood -190.4745 criter.
Durbin-Watson
F-statistic 0.146024 stat Prob(F-statistic) 0.707099
表1—6 y对x5的一元回归结果
20.26047 20.35989 20.27730 0.323201
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:35 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C 34648.02 10862.71 3.189631 0.0054 X5 85.48308 96.63046 0.884639 0.3887 Mean dependent R-squared
0.044009 var
S.D. dependent
Adjusted R-squared -0.012226 var
Akaike info
S.E. of regression 5672.701 criterion
Schwarz
Sum squared resid 5.47E+08 criterion
Hannan-Quinn
Log likelihood -190.1282 criter.
Durbin-Watson
F-statistic 0.782586 stat Prob(F-statistic) 0.388692
表1—7 一元回归结果汇总 变量 参数估计44188.38 5638.338 20.22402 20.32343 20.24084 0.330426
x1 x2 x3 4.364503 x4 0.099031 x5 85.4830 -0.390537 1.087677 9
量 T -1.551992 3.997818 0.124103 0.072580 0.484576 0.454257 6.778812 0.729954 0.714069 0.382131 0.008516 0.884639 0.044009 R2 R2 -0.049806 -0.012226 由上表可以看出,x3的R2=0.714069比其他变量的R2都要大,可见y与x3最好,所以以x3为基础,顺次加入其他变量,做4个二元回归,结果如下。
表1—8 y对x1,x3的二元回归
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:36 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C -31441.68 18676.73 -1.683468 0.1117 X1 0.507240 0.153903 3.295837 0.0046 X3 5.981196 0.709193 8.433801 0.0000 Mean dependent
R-squared 0.839154 var 44188.38
S.D. dependent
Adjusted R-squared 0.819048 var 5638.338
Akaike info
S.E. of regression 2398.460 criterion 18.54698
Schwarz
Sum squared resid 92041780 criterion 18.69610
Hannan-Quinn
Log likelihood -173.1963 criter. 18.57222
Durbin-Watson
F-statistic 41.73702 stat 0.883075 Prob(F-statistic) 0.000000
表1—9 y对x2,x3的二元回归
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:37 Sample: 1 19 Included observations: 19
Variable CoefficienStd. Error t-Statistic Prob.
10
t
89128.24 18897.00 4.716527 0.0002 -1.492029 0.473355 -3.152031 0.0062 8.957500 1.547585 5.788050 0.0000 Mean dependent
R-squared 0.833403 var 44188.38
S.D. dependent
Adjusted R-squared 0.812579 var 5638.338
Akaike info
S.E. of regression 2440.959 criterion 18.58211
Schwarz
Sum squared resid 95332480 criterion 18.73123
Hannan-Quinn
Log likelihood -173.5300 criter. 18.60735
Durbin-Watson
F-statistic 40.02019 stat 1.096270 Prob(F-statistic) 0.000001
表1—10 y对x3,x4的二元回归
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:37 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C 31849.08 6919.900 4.602535 0.0003 X3 4.396333 0.669707 6.564562 0.0000 X4 -0.043365 0.140682 -0.308248 0.7619 Mean dependent R-squared
0.731548 var
S.D. dependent
Adjusted R-squared 0.697992 var
Akaike info
S.E. of regression 3098.563 criterion
Schwarz
Sum squared resid 1.54E+08 criterion
Hannan-Quinn
Log likelihood -178.0624 criter. F-statistic 21.80054 Durbin-Watson
11
C X2 X3
44188.38 5638.338 19.05920 19.20833 19.08444 0.456927
Prob(F-statistic)
stat
0.000027
表1—11 y对x3,x5的二元回归
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:38 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C 44052.45 4752.726 9.268879 0.0000
5.496036 0.624191 8.805048 0.0000
-160.7206 49.79003 -3.227967 0.0053
Mean dependent
R-squared 0.836458 var 44188.38
S.D. dependent
Adjusted R-squared 0.816016 var 5638.338
Akaike info
S.E. of regression 2418.475 criterion 18.56360
Schwarz
Sum squared resid 93584306 criterion 18.71272
Hannan-Quinn
Log likelihood -173.3542 criter. 18.58884
Durbin-Watson
F-statistic 40.91722 stat 1.090581 Prob(F-statistic) 0.000001
2由上面的二元回归结果可以看出,当y对x1,x3进行二元回归时,R=0.819048,比其他的都要大,故选择保留x1。接下来,以x1,x3为基础,在顺次引入其他变量,做3次三元回归,输出结果如下。
表1—12 y对x1,x2,x3的三元回归
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:42 Sample: 1 19 Included observations: 19
Variable CoefficienStd. Error t-Statistic Prob.
12
X3 X5
t
27876.50 15388.71 1.811490 0.0901 0.517906 0.091096 5.685246 0.0000 1.525107 0.275304 -5.539725 0.0001 10.71001 0.951209 11.25936 0.0000 Mean dependent
R-squared 0.947193 var 44188.38
S.D. dependent
Adjusted R-squared 0.936631 var 5638.338
Akaike info
S.E. of regression 1419.348 criterion 17.53845
Schwarz
Sum squared resid 30218219 criterion 17.73728
Hannan-Quinn
Log likelihood -162.6152 criter. 17.57210
Durbin-Watson
F-statistic 89.68385 stat 2.474696 Prob(F-statistic) 0.000000
表1—13 y对x1,x3,x4的三元回归
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:43 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C -29542.82 18825.37 -1.569309 0.1374 X1 0.532410 0.156479 3.402447 0.0039 X3 6.139523 0.729728 8.413445 0.0000 X4 -0.106411 0.110718 -0.961102 0.3517 Mean dependent
R-squared 0.848485 var 44188.38
S.D. dependent
Adjusted R-squared 0.818181 var 5638.338
Akaike info
S.E. of regression 2404.198 criterion 18.59248
Schwarz
Sum squared resid 86702537 criterion 18.79131 Log likelihood -172.6286 Hannan-Quinn 18.62613
13
C X1 X2 X3
F-statistic
Prob(F-statistic)
criter.
Durbin-Watson
27.99993 stat 0.000002
0.780128
表1—14y对x1,x3,x5的三元回归
Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:43 Sample: 1 19 Included observations: 19
CoefficienVariable t Std. Error t-Statistic Prob.
C -4143.049 19980.08 -0.207359 0.8385 X1 0.364388 0.147783 2.465707 0.0262 X3 6.325115 0.639365 9.892815 0.0000 X5 -113.5197 47.41421 -2.394214 0.0302 Mean dependent
R-squared 0.883626 var 44188.38
S.D. dependent
Adjusted R-squared 0.860352 var 5638.338
Akaike info
S.E. of regression 2107.023 criterion 18.32860
Schwarz
Sum squared resid 66593163 criterion 18.52743
Hannan-Quinn
Log likelihood -170.1217 criter. 18.36225
Durbin-Watson
F-statistic 37.96503 stat 1.257043 Prob(F-statistic) 0.000000
2
由三元回归后输出的结果,我们可以看出y对x1,x2,x3的三元回归结果后,R=0.936631为最大的。也就是说,y对x1,x2,x3的组合最好。故可以得出模型。 1.5.3 模型建立
到此,可以得出最后的模型为:
y=27876.5+0.517906x1+1.5251071x2+10.71001x3 (1)
其中,R=0.947193,R=0.936631,F=89.68385,DW=2.474696。
14
222 模型分析
2.1 异方差检验
怀特(White)检验法
利用White方法检验是否存在异方差,得到下表
表2—1 怀特检验结果
Heteroskedasticity Test: White F-statistic
1.161144 Prob. F(9,9)
0.4138 0.3339 0.9334
Obs*R-squared Scaled explained SS
10.20836 Prob. Chi-Square(9) 3.640540 Prob. Chi-Square(9)
由上面输出结果可以看出,nR=10.20836,由White检验知,在=0.05下,经查表得临界值0.05(9)=16.9190,,比较统计值与临界值,因为nR= 10.20836<0.05(9)=16.9190,所以接受原假设,拒绝备择假设,表明该模型异方差不显著。
22222.2 自相关检验
运用eviews软件,采用D.W.检验法对y与x1,x2,x3的关系进行检验,结果见下表。
表2—2
Sample: 1 19
Included observations: 19
Variable C X1 X2 X3
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)
Coefficient 27876.50 0.517906 -1.525107 10.71001
Std. Error 15388.71 0.091096 0.275304 0.951209
t-Statistic 1.811490 5.685246 -5.539725 11.25936
Prob. 0.0901 0.0000 0.0001 0.0000 44188.38 5638.338 17.53845 17.73728 17.57210 2.474696
0.947193 Mean dependent var 0.936631 S.D. dependent var 1419.348 Akaike info criterion 30218219 Schwarz criterion -162.6152 Hannan-Quinn criter. 89.68385 Durbin-Watson stat 0.000000
根据上表的参数估计结果可以知道D.W=2.474696,给定显著水平0.05, n=19,查表得下限临界值
d
L
=0.75,上线临界值
dU=2.02,模型中D.W值介于
4-dL和
4-dU之间,所以该
模型是否有自相关不确定。
2.3 迭代法处理自相关
15
利用Cochrane—Orcutt迭代法分析其自相关的问题,输出结果如下表。
表2—3 迭代法输出结果
Sample (adjusted): 2 19
Included observations: 18 after adjustments Convergence achieved after 10 iterations
Variable C X1 X2 X3 AR(1)
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) Inverted AR Roots
Coefficient 23758.76 0.538660 -1.474090 10.50830 -0.238456
Std. Error 15868.95 0.082621 0.287022 1.013863 0.266261
t-Statistic 1.497186 6.519671 -5.135819 10.36462 -0.895576
Prob. 0.1582 0.0000 0.0002 0.0000 0.3868 44950.16 4689.001 17.62991 17.87724 17.66402 1.912420
0.926635 Mean dependent var 0.904061 S.D. dependent var 1452.369 Akaike info criterion 27421877 Schwarz criterion -153.6692 Hannan-Quinn criter. 41.04918 Durbin-Watson stat 0.000000 -.24
根据上表的参数估计结果可以知道D.W=1.912520,给定显著水平0.05, 样本数量n=18,查表得下限临界值
dL=0.71,上线临界值
dU=2.06,D.W=1.912520,所以该模型不存在自
相关性。
故得出的模型(1)式可以作为最后的模型,即
y=27876.5+0.517906x1+1.5251071x2+10.71001x3
2.4 经济意义解释
x1的回归参数0.517906表示:在其他条件不变的情况下,粮食播种面积每增加1千公
顷,粮食产量增加0.517906万吨;
x2的回归参数1.5251071表示:在其他条件不变的情况下,有效灌溉面积每增加1千
公顷,粮食产量增加1.5251071万吨;
x3的回归参数10.71007表示:在其他条件不变的情况下,化肥施用量每增加1万吨,
粮食产量增加10.71007万吨;
3 结果分析
在与粮食产量有关的这三个解释变量中,化肥施用量对粮食产量的影响最大,有效灌溉面积的影响最小。因此,在粮食生产整体调控中,即使遇到自然灾害(旱涝灾害等),我们
16
因篇幅问题不能全部显示,请点此查看更多更全内容