您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页基于决策树和粗糙集的高分辨率短时临近雷电预报模型

基于决策树和粗糙集的高分辨率短时临近雷电预报模型

来源:华佗健康网
基于决策树和粗糙集的高分辨率短时临近雷电预报模型

刘承启;黄学坚;徐健锋;李建民;许园

【摘 要】It has been suggested that Thunderstorm has done damage to human society,causing many casu-alties and huge pecuniary loss.However,there are still gaps in the research that can accurately forecast the high-resolution and short-term approaching thunderstorm.We discussed the advantages of Decision tree in the essay,including simplicity in description,rapidness in classification,easily access to comprehension and high accuracy.Therefore,the model based on Decision tree might be suitable for processing large-scale da-ta.Due to the limitation of meteorological data-high dimension and limited actual sample,we attempted to put forward using rough set attribute reduction so that it could decrease the complexity of the problem. Then the decision tree was employed to perceive the pattern of the reduced sample.Considering the activity of thunder in Jiangxi province,a forecast model of high-resolution and short-term approaching thunder-storms was put forward in this essay.Experiments showed that the prediction model proposed in this paper had higher forecast accuracy than the original SVM models.%雷暴天气造成众多人员伤亡及巨大经济损失,给人类社会带来极大危害,目前对高分辨率短时临近的雷暴天气的预报研究比较少。决策树有描述简单、分类速度快、易于理解、精度较高等优点,特别适合大规模的数据处理。根据气象数据的超高维而实际样本数又是有限的,并且很多属性是线性相关的特点,本文提出运用粗糙集进行属性约简,降低问题的复杂度,然后用决策树对约简后的样本进行模式识别。本文基

于江西省的雷电活动设计出高分辨率雷电临近预报方案。通过实验表明本文所提出的预报模型比原有的 SVM 预报模型有更高的预报准确度。 【期刊名称】《南昌大学学报(理科版)》 【年(卷),期】2014(000)006 【总页数】6页(P559-563,568) 【关键词】决策树;粗糙集;雷电预报

【作 者】刘承启;黄学坚;徐健锋;李建民;许园

【作者单位】南昌大学 网络中心,江西 南昌 330031;南昌大学 软件学院,江西 南昌 330047;南昌大学 软件学院,江西 南昌 330047;南昌大学 网络中心,江西 南昌 330031;南昌大学 软件学院,江西 南昌 330047 【正文语种】中 文

【中图分类】TP30912;TP18

雷暴是最严重的自然灾害之一,人类对雷电的预警的需求越来越迫切。国内外雷暴潜势预报的机器学习算法主要是在筛选出与雷暴发生相关性高的大气不稳定参数作为预报因子的基础上,构建雷暴发生的概率预报方程,并区分强雷暴与弱雷暴。常规的预报方法有:

(1)常规预报方法,这种方法是由预报员利用天气学方法构建的,但这些方法的准确度较低;

(2)利用天气雷达资料和卫星云图,通过动态显示对流云团,来预报雷电发生和落区。

(3)应用闪电定位仪监测闪电,应用引导气流方法和雷电发生发展理论对闪电的未

来强度做出预报,显示未来可能影响本地的雷电。

(4)数值预报方法,是利用强对流天气的大气参数的数值模式来模拟各个区域出现雷电的情况。

目前较成功的预报方法有:美国AWIPS雷暴产品运用决策树方法制作了雷暴预测模型为机场提供自动雷暴探测和严格导航系统;澳大利亚气象局将数值预报产品与决策树方法结合设计了雷电预报模型;北京市气象局利用北京地区中尺度数值预报业务系统提供的格距为15 km的预报要素场,计算各种强对流指数为参数设计了36 h内的雷电潜势预报模型。

综合而言,国内外对高分辨率短时临近的雷暴天气的预报文献报道比较少。江西省是我国年平均雷暴日较多,雷暴活动相对频繁的省份之一,此前南昌大学和江西省气象局提出过基于RS_SVM的雷电预报模型[1],但是预报准确率还有待提高。在此基础上,本文提出采用粗糙集与决策树相结合的方法来构建雷电预报模型,建立分辨率为5 km×5 km(即0.045E*0.045N)的3 h雷电预报模型。通过实验表明,使用决策树比使用SVM更适合高分辨率短时临近的雷暴天气的预报。

决策树是一种常用于预测模型的算法,它通过一系列规则将大量数据有目的分类,从中找到一些有价值的、潜在的信息。粗糙集理论RST(RoughSet Theory)是一种处理不精确、不确定与不完全数据的新的数学理论,为研究不完整数据进行分析、推理、发现数据间的关系,提取有用属性,简化信息处理,研究不精确、不确定知识的表达、学习、归纳方法等提供了一个有力的工具。

决策树是分类应用中采用最广泛的模型之一。其核心问题是测试属性选择的策略,以及对决策的简化。

决策树的基本构造算法如下,训练集T={〈X,C〉},而X=(x1,x2,…,xn)为一个训练样本集,每个样本有i个属性(A1,A2,…,Ai)。C={C1,C2,…,Cm}。算法分以下几步:

1)从属性表中选择属性Ai作为分类属性,如果Ai是连续的则进行离散化; 2)若属性Ai的取值有di个,则将T根据Ai的不同取值划分为di个子集Ti1 ,…,Tidi,其中Tidi的属性取值Ai为第di个值; 3)从属性表中删除属性Ai;

4)对于每一个Tij(1≤j≤di),令T=Tij;如果属性表非空,返回(1),否则输出。 决策树的生成算法主要有ID3、C4.5、CART等方法[8],ID3学习算是以信息熵(也称信息不确定性)的下降速度作为选取测试属性的标准,C4.5算法是由Quinlan自己扩充ID3算法而提出的,用信息增益率来选择属性,克服了用信息增益来选择属性时偏向选择值多的属性的不足,是ID3算法的改进。CART是一种典型的二叉决策树,可以同时处理连续变量和分类变量。简化决策树的方法有控制树的规模、修改测试空间、修改测试属性、数据库约束、改变数据结构等。

设四元组S=(U,A,V,f)是一个知识表达系统[2],其中U为对象的非空有限集合,称为论域,A为属性的非空有限集合是属性a的值域,f:U×V→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即∀a∈A,x∈U,f(x,a))∈Va。 定义1 令P⊆A,定义属性集P的不分明关系ind(p)为ind(p)={(x,y)∈U×U|∀a∈P,f(x,a)=f(y,a)}。

符号U/ind(P)(简记为U/P)表示不分明关系ind(p)在U上导出的划分,ind(p)中的等价类称为P基本集。符号[x]P表示包含x∈U的P的等价类。在不产生混淆的情况下用P代替ind(p)。

定义2 对于知识库K=(U,R),任意的对象集合X⊆U,定义集合⊆X}称为X的R下近似集,将POSR(X)称为X的R正域。

定义3 设U/C={X1,X2,…,Xk},则D的C正域为对C的依赖度为:γc(D)=|POSC(D)|/|U|。

定义4 对于属性c∈C,若γC(D)=γC-c(D),则属性c相对于决策属性D是可以

约简的,属性c的重要性为:SSGF(c,C,D)=γC(D)-γC-c(D),如果C中属性相对于D为不可缺少的,则C相对于D。对于B⊆C,如果B是D的,且γC(D)=γB(D)则B是C的相对约简,记为Rred(C),记核Ccore(C)=∩Rred(C)。 本文建立的基于决策树和粗糙集的雷电预报模型框架如图1所示,其中数据预处理(数据清洗,离散化,归一化)是应用粗糙集进行数据分析的前提,预报因子提取是为了对气象数据进行组合分析移出冗余数据以降低数据的复杂度。

本实验的数据有两块,一块是是江西气象局业务运行的LAPS 系统资料。该系统垂直层21层,顶层为100 hPa,每层间隔50 hPa,水平格距取5 km×5 km,分析区域的中心位于31.0°N、115.0°E。LAPS系统不仅给出一些基本物理量的分析场资料,还可提供一些由分析量导出的衍生产品,包括高度、风、温度、垂直速度、相对湿度、比湿、反射率、云量、云分类、云水含量、云冰、雪含量、雨水含量、云底高度、云顶高度、可降水量、液态水含量、抬升指数、对流有效位能、对流抑制能量、肖沃特指数、K 指数、抬升凝结高度等33种产品。目前该系统每天输出8 个时次(00、03、06、09、12、15、18、21 时)间隔3 h的再分析资料。还有一块是雷电数据,这块数据记录了在那个时刻那个经纬度发生了雷电。主要包含四个属性(时间,经度,纬度,强度)。可通过GRADS软件把laps资料插值到指定格距的经纬度网格中。根据 3 h内是否发生雷电给LAPS气象数据加入决策属性。 对于一些属性缺失的样本,可以进行插值处理或则直接剔除,本实验拿到的数据计较完整,只有很少的一部分是缺失的,所以采用了直接剔除。在应用粗糙集理论对实际数据进行分析时要求由实际数据构成的决策表中各个属性值必须用离散值表达,由于气象资料数据是连续的,故在处理前必须经过离散化。选择对决策表进行离散化的基本要求是要保持决策表的相容度及提取的规则泛化能力。为此本文选用基于信息熵的属性离散化方法,基于信息熵的离散化引入了信息论中熵的概念,对样本先按属性值进行排序,每两个相邻的属性值Ci的均值作为一个潜在的断点,它把

样本集合分割为两个子集U0={x∈U|a(x)≤Ci},U1={x∈U|a(x)>Ci}选择Ci作为断点使其作为分割点划分U后熵E(U,Ci)最小。基于信息熵的离散化算法充分利用了类别属性的信息,使得它更有可能将区间的边界定位在准确的位置。

将气象资料数据用基于信息熵的离散化算法进行离散化后作为决策表的条件属性,将雷电发生与否以0或1表示并作为决策属性,自此将数据组成决策表。由于决策表是一个维数庞大和复杂多样的数据集合,包含了许多冗余属性,需进行进一步的处理得到较为简化的决策表。

气象数据时超高维的时空域网格数据,但为了描述方便我们可以把所有的属性统一看成一个整体属性s.这样我们就可以把气象数据描述成一个四维的数据格式L=f(tl,l,w,s),s为所有气象属性的集合,tl为每3 h间隔的离散时间属性,l和w为(0.045*0.045)的网格可以用g(l,w)代表,气象数据模型可以简化为L=f(tl,g,s),同一gn网格内不同3 h间段的气象数据描述为f(tl,gn,s)tl∈(tl1,tl2,…,tln),同一时刻tln在不同网格内气象数据描述为f(tln,g,s)g∈(g1,g2,…,gn)。相应的函数值就是我们的决策属性(0:没发生雷电,1:发生了雷电).函数值的确定我们就要参考雷电数据了。电雷数据相对简单只有简单的时间(发生雷电的时间),经纬度(雷电发生地点),强度等信息。由于我们只考虑是否发生雷电所以强度可以忽略,只要对应的时间和经纬度我们就可以给我们的气象数据加决策。我们可以把雷电数据看成一个关于时间,经度,纬度的集合A(t,l,w),a(t1,l1,w1)是集合A中一个元素表示在时刻t1,经度l1,纬度w1发生了雷电。tl1时刻,g1网格的象数据f(tl1,g1,s),果如在集合A中存在t∈tl1;l,w∈g1A的元素a(说明在g1网格内tl13 h内有雷电发生)则f(tl1,g1,s)=1(气象数据s发生了电雷),反之f(tl1,g1,s)=0 预报因子是预报模型中作为输入参数的气象指标,气象数据含有多种气象因子,有些因子是线性相关的,有些是对做决策是没有多大贡献的。若均作为雷电预报模型的决策参数,需要很大的样本数,并且会提高算法的复杂度。故需要进行预报因子

的选取,以牺牲一部分精度为代价降低维数。传统的预报因子选取只能由预报人员根据自己的经验来判断哪些气象因子是重要的,或者是通过对某个气象因子与预报量(即要预报的天气现象)进行单因子分析,筛选出与预报量相关性较高的气象因,但得到的预报因子并不能很好的保持原始气象因子对天气现象的反映能力,因为天气现象的发生是往往通过多个气象因子综合反映出来的。为了选取较好的预报因子组合,传统的模型一般采用逐步回归方法,但是该方法挑选出来的预报因子间容易存在复共线性关系,往往会产生预报方程拟合精度高而预报能力差的情况。本文提出基于粗糙集的属性约简方法来提取预报因子。粗糙集的属性约简就是在保持决策信息系统分类能力不变的情况下,删除那些不相关的属性。由于粗糙集理论在简化知识的同时,很容易推理出决策规则,可以用得到的决策规则与决策树方法得到的结果相比较,从而作进一步的修正。根据定义4设计属性约简算法:符号说明:U为决策表中样本集合,A={a1,a2,…,ai,an}为条件属性集合,D为决策属性集合。设c⊂A,POSc(D)为D的c正域。 (1)遍历A中的元素求出POSA-ai(D)

(2)如果POSA-ai(D)==POSc(D)a则删除A中ai,否则保留ai

(3)如果遍历完A中的元素,则最后A中剩余的元素即为条件属性的约简,否则转(1)

1构造的算法描述如下:

1)使用2.3的建模方法经行数据建模,为历史气象数据加决策得到训练样本集。 2)应用1.2节粗糙集的方法进行预报因子提取。

3)对当前窗口中数据记录,计算各特征属性的信息增益; 4)选择信息增益最大的特征Ai;

5)把在Ai处取值相同的记录归于同一子集,将当前窗口记录划分成不同的子集; 6)判断子集,若各子集中记录同属于一个类别,则在决策树上作相应类别标记,并

返回,否则对子集递归调用本算法步骤2。 2 简化:

为了避免树的高度无节制的增长,避免过度拟合数据,采用了一种后剪枝方法,该方法是从一种称为“规则后修剪”(rulepost-pruning)的方法演变而来。该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。方法中使用的公式如下: Pr[>z]=c e=

通过判断剪枝前后e的大小,从而决定是否需要剪枝。 (1)实验环境

在Windows7系统中使用Matlab 7.1,GrADS 1.9 为实验平台进行实验。 (2)原始气象数据准备

本文从2011~2013年江西省境内及周边的雷电定位资料中提取出经纬度范115.2827-116.2727E,28.20067-29.10067N(新建县),切割出200,500,700,800,850,1 000 hpa共6层,网格距为0.045E*0.045N的各个网格的闪电定位数据。同时将laps插值到同样的网格中。由于江西省一年中雷暴日基本集中在6~9月,故本文从中8月份的数据中筛选出雷暴次数较多的时次的laps资料及对应的闪电数据来组成研究的实验数据共计10 000多条(4 000条发生雷电,6 000条不发生)。 (1)数据离散化

将laps资料数据用1.1节的方法进行离散化后作为决策表的条件属性共计117个条件属性,将雷电发生与否以0或1表示,如果在此气象数据的的条件下后3 h内发生雷电者本条测试数据的决策属性为1,否则为0,将雷电信息离散化后作为决策属性,自此将实验数据组成决策表。

(2)预报因子提取

应用1.2节的方法进行预报因子提取。实验从117个条件属性约简得到16个属性作为模型的预报因子:t1000(1 000 Pa温度),sno1000(1 000 Pa雪含量),rh800(800 Pa相对湿度),smt200,smt700,smt800(smth9(ht/10)加权9点平滑),rh700(700 Pa相对湿度),q700(700 Pa绝对湿度),ht500(500 Pa高度),t500(500 Pa温度),q500(500 Pa绝对湿度),lps500(500 Pa反射率),ice200(200 Pa云冰),sno200(200 Pa雪含量),li(抬升指数),kk(K指数)。 (3)训练得出决策树模型。

分别使用应用较广的CART、ID3、C4.5算法生成决策树,使用不同的剪枝参数经行对比。 (4) 模型测试:使用交叉验证的方法,经行3轮,每轮随机选取试验样本的80%作为训练样本,20%作为测试样本。 (5) 使用支持向量机SVM,采用RBF、多项式、线性、sigmoid等核函数,使用同样的试验样本对处理后的预报因子做对比实验。

从图2可以看出,通过对提取的因子使用决策树方法比使用SVM的准确性更高。 对于决策树方法,选择不同剪枝参数,对应的正确率和复杂度也会发生变化。本文选择实验中准确率最高的CART算法决策做深度的实验,实验结果如表2所示: 从表里可以看出,深度为7的决策树模型正确率最高,但是复杂度高,存在过学习。所以选择第5层。图3展示了5层CART决策树的雷电预报模型。

本文提出的先使用粗糙集提取预报因子,再使用决策树导出预报模型的方法对高分辨率短时临近的雷暴有较好的预报效果。它大大提高了预报的效率和准确率。 【相关文献】

[1] 林于渊.基RS-SVM的雷电预报模型[D].南昌:南昌大学,2012. [2] 刘清.rough set及rough set推理[M].北京:科学出版社,2005.

[3] 王丽娜.基于粗糙集的数据挖掘改进的属性约简算法研究[D].成都:电子科技大学 2012.

[4] 谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005(9):1570-1574.

[5] 孔庆燕,金龙.粗糙集理论在区域降水预报中的应用研究[J].广西科学院学报,2007,23(3):147-149.

[6] 付昂,王国胤,胡军.基于信息熵的不完备信息系统属性约简算法[J].重庆邮电大学学报:自然科学版,2008(5):586-592.

[7] 王斌.决策树算法的研究及应用[D].上海:东华大学,2008. [8] 李旭.五种决策树算法的比较研究[D].大连:大连理工大学,2011.

[9] 顾清源,徐会明,刘春生.决策树方法在雷电预报中的应用[A].中国气象学会2006年年会“气象雷达及其应用”分会场论文集,2006.

[10] 王名扬.基于粗糙集理论的决策树生成与剪枝方法[D].长春:东北师范大学,2005. [11] 彭永供,邱桃荣,林于渊,等.基于哈夫曼树的雷电数据采样算法[J].计算机工程,2013,39(5):169-173.

[12] Corinna Cortes V.Vapnik.Support-Vector Networks[J].Machine Learning,1995,.20:273-297.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务