DNA序列分类的统计分析

来源：华佗健康网

第15卷　第2期甘肃科学学报Vol.15　No.2

2003年6月JournalofGansuSciencesJue.2003

文章编号:1004-0366(2003)02-0079-05

DNA序列分类的统计分析

郭　艾

(华南理工大学应用数学系,广东广州　5100)

摘　要:　采用系统聚类分析方法,对已知类别的20种叫A序列中4种碱基的含量及各碱基之间的相关性进行了统计分析,发现不同类别的叫A序列中碱基的排列兵有明显的规律性,由此建立了一种DNA序列分类的方法,井运用统计分析对这种分类方法的合理性给予了检验.

关键词:　碱基;DNA序列;聚类分析;假设检验中图分类号:　O212;C8　　　文献标识码:　A

DNA序列是由4个字符a,c,g,t按一定顺序排成的,这4个字符表示4种碱基.当前生物信息学最重要的课题之一是研究由这4个字符排成的看似随机的序列中隐藏着什么规律.

我们有20个巳知类别的人工制造的DNA序列,其中序列标号1～10为A类,11～20为B类.我们的目的是从已知类别的序列中提取特征,构造分类方法,对其它未知类别的序列进行分类.

[1]

1　DNA序列的聚类分析

我们对20个已知类别的人工制造的DNA序列的4种碱基含量个数进行统计得到表1,表2.

表1　DNA序列A类

　　1.aggcacggmamacgmatmacgagagacttgcacgcattgcacggagacgagggtmgagcttgtctgccgatgtgcmggmgtgg.

2.cggaggacgacgatggcggtgggagJggcggactgttcggggggcggcgcgacgccggtgccagcgga.

3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggagggagggcggcaatcggtacgg.4.atggcgaacggagxgmccagncgcggtagmadtgcagggcttaggtgcgggtgggtfggggggcgggggcg.5.atggcgaacggagxgmccagncgcggtagmadtgcagggcttaggtgcgggtgggtfggggggcgggggcg.

6.gtgagtggggggcggcaggcaggcaggaggcgxmggcgggxmggg4gggacggcggggggmgtgggtattagcggmatggcgcggcacacacacacaca.

7.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatggcggcaggaaggatatggaggcg.8.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.9.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.10.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.

收稿日期:2002-08-05　　　　　　　　　　　　　　　　　　　　甘80

肃科学学报　　　　　　　　　　　　　　2003年　第2期

序列号

碱基

acgt

33194415

230184617

33024507

447122032

5362712

639144414

739114021

831184121

923234817

1020304515

31.8019.5042.5017.10

59.3634.85.4539.98

平均

方差

表2　NAN序列B类

11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttatt.12.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaaa.13.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatattgc.14.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaa.15.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.16.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaa.17.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattccc.18.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.19.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatataa.20.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatta.

序列号

碱基

acgt

3951155

23631655

328111457

43391355

5320771

091051

739271529

832131055

92416862

102219762

23.5011.2011.1055.20

35.6557.769.69104.90

平均

方差

由此建立表示碱基a,c,g,t含量的向量集合,A类表示为:

a1=(33,19,44,15)/L1,a2=(30,18,46,17)/L2,a3=(3,24,50,7)/L3,a4=(47,12,20,32)/L4,a5=(26,26,47,12)/L5,a6=(39,14,44,14)/L6,a7=(39,11,40,21)/L7,a8=(31,18,41,21)/L8,a9=(23,23,48,17)/L9,a10=(20,30,45,15)/L10,其中Li表示序列i的碱基总数.由上容易得出表示A类碱基a,c,g,t平均含量的向量a=(0.287,0.176,0.0380,

0.150).计算向量ai-a*的范数‖ai-a*‖,令Qa=max‖ai-a‖.i相应B类表示为:

b1=(39,5,11,55)/L11,b2=(36,3,16,55)/L22,b3=(28,11,14,57)/L13,b4=(33,9,13,55)/L14,b5=(32,0,7,71)/L15,b6=(40,9,10,51)/L16,b7=(39,27,15,29)/L17,b8=(32,13,10,55)/L18,b9=(24,16,8,62)/L19,b10=(22,19,7,62)/L20.由此算出B类碱基a,c,g,t平

a=max‖bi-b‖.均含量向量b=(0.295,0.102,0.101,0.502).计算范数‖bi-b‖,令Qi

由于在DNA序列中,虽然各碱基的含量可以描述它的某些特征,但还不能全面反映它的

结构,因此有必要分析各碱基间的相关性[2].首先给出相关矩阵的定义:

agct

agctc11c21c31c41c12c22c32c42c13c23c33c43c14c24c34c44第15卷　　　　　　　　　　郭　艾:DNA序列分类的统计分析　　　　　　　　　　　　　　

其中c11表示序列中大基a相邻于大基a的左边的次数,c23表示序列中碱基g相邻于碱基c的左边的次数,依次类推.由此建立20个已知类别序列的碱基相关性矩阵,A类为:

109

10411

466134A1=

1221635

1526814924,A2=1124651012,A3=61611,55143626312

121661372171137A4=

7535

1124101

122291

6312,A5=61235,A6=5900,12621223

442261782129114710715A15185112188

282017=

1712,A8=

3924,A9=

41333,

663480

57742A20110=

5615,2

4,我们令A*=Ai/Li,通过计算得到A类的碱基平均相关矩阵

0.1040.00.0710.0A*=

0.0410.0170.0930.024

0.0980.0770.1790.024.

0.038

0.0260.0390.050B类相关矩阵为:

173

31615

711275511B305350532511=

31211,B12=

1101,B413=

322

1821

3317223414321821661372171137B755112410112229114=

36312,B15=61235,B16=

5900,

126212233

442261782129114710715B1518511218820117=1712,B18=

823924,B19=

41333,

480

5由于各序列的长短不同　　　　　　　　　　　　　　　　　　　　甘82

肃科学学报　　　　　　　　　　　　　　2003年　第2期

B20=

110

701

7415

1041136由于各序列的长短不同,我们令B*=Bi/Li,通过计算得到B类的碱基平均相关矩阵

0.01800.03450.03000.1190B=

0.02180.03090.1345

0.01630.01450.00820.02180.04380.0250

0.04730.04000.2950.

计算矩阵范数.

*******

‖A*i-A‖,‖Bi-B‖,令RA=max‖Ai-A‖,RB=max‖Bi-B‖.ii

我们的聚类方法是对某一DNA序列,构造出表示它的碱基a,c,g,t含量的向量e和表示它的碱基相关性的相关矩阵E,计算范数ra=‖e-a*‖,rb=‖e-b*‖,SA=‖E-A*‖,SB

=‖E-B*‖,如果ra2　统计检验

我们对A,B2类DNA序列中各碱基的含量以及各碱基间的相关性是否服从正态分布进行W正态检验

[3,4]

表3　碱基含量的W正态检验

类别AAAAAAAA

碱基acgtacgt

假设N(31.8,59.36)N(19.5,34.85)N(45.5,60.45)N(17.1,39.)N(32.5,35.65)N(11.2,57.76)N(11.1,9.69)N(58.1,98.65)

检验水平A0.050.050.050.050.050.050.050.05

n10109101010109

统计量W0.960.96140.86350.91760.92410.97120.92930.95

Za0.8420.8420.8290.8420.8420.8420.8420。829

结论接受假设接受假设接受假设接受假设接受假设接受假设接受假设接受假设

表4　碱基相关性的W正态检验

类别AAAAAABBBBBB相关碱基

aaatgggccgttaaatgggccgtt假设N(11.5,23.25)N(6,13.19)N(21.4,6.91)N(8.5,14.25)N(10.3,13.41)N(5.6,7.)N(11.9,27.69)N(13.8,3.51)N(2.4,1.84)N(0.9,1.49)N(1.7,l。.01)N(32.5,123.45)检验水平A0.050.050.050.050.050.050.050.050.050.050.050.05n1010910101010910101010统计量W0.87780.85980.84350.91220.96180.91090.91490.86880.86770.74430.87360.95Za0.8420.8420.8290.8420.8420.8420.8420.8290.8420.8420.8420.829结论接受假设接受假设接受假设接受假设接受假设接受假设接受假设接受假设接受假设拒绝假设接受假设接受假设第15卷　　　　　　　　　　郭　艾:DNA序列分类的统计分析　　　　　　　　　　　　　　

　　由表

3和表4的结论知,A、B召两类的DNA且序列中,各碱基的含量以及相关碱基aa,

at,gg,cg,tt在序列中出现的频率服从正态分布,略去其它相关碱基是否服从正态分布的检验

过程,可以近似的认为它们大部分服从正态分布。所以,我们可以对A,B两类的DNA序列之间,它们各碱基的平均含量以及相关碱基出现的频数是否存在显著性差异进行t检验[3,4](见表5).由此可以衡量我们的关于DNA序列的聚类方法是否足够好.

表5　B类差异子A类的t检验

类别BBBBBBBB

碱基acgtatggcgtt

假设u=31.8u=19.5u=42.5u=17.1u=6.0u=21.4u=10.3u=5.6

检验水平A0.050.050.050.050.050.050.050.05

n1010101010101010

统计量t1.050090.750033.5200125.580076.250021.870021.8700

tA22.262.262.262.262.262.262.26

结论差异显著差异很显著差异很显著差异极显著差异很显著差异很显著差异很显著

9.83752.26差异很显著

由表5看出,按照本文构造的聚类法将DNA序列分为A,B2类,在这两类间存在着很显著的差异.由此说明这种分类方法是可行的.

参考文献:

[1]　姜启源.数学模型[M].北京:高等教育出版社,1993.

[2]　任仁泉.非计数资料的内部相关性研究[J].数理统计与管理,2000,19(3):24-27.[3]　方开泰.实用多元统计分析正[M].上海:华东师范大学出版社,19.[4]　中国科学院数学研究所.方差分析正[M].北京:科学出版社,1984.

STATISTICALANALYSISONTHECLASSIFICATIONOFDANSEQUENCE

GUOAi

(DeptofAppliedMath.SouthChinaUniversityofTechnology,Guangzhou5100,China)

Abstract:　ThemethodofhierarchicalclusteranalysisisusedtocountupandanalyzethecontentsandcorrelationoffouralkalibasesintwentyDNAsequenceswhosecategoryareknown.ItindicatesthatthepermutationsoffouralkalibasesinDNAsequenceswhichbelongtodifferentcategoryhaveobviouslaw.Fromthis,themethodofclassifyingDNAsequenceisdeveloped.Bymeansofexaminationweprovethemethodofclassificationisrational.

Keywords:　alkalibase;DNAsequence;clusteranalysis;assumedexamination

作者简介:

郭　艾,(19-)女,陕西省佳县人,1985年毕业于兰州大学数学系,现任华南理工大学应用数学系副

教授.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文