2003年6月JournalofGansuSciencesJue.2003
文章编号:1004-0366(2003)02-0079-05
DNA序列分类的统计分析
郭 艾
(华南理工大学应用数学系,广东广州 5100)
摘 要: 采用系统聚类分析方法,对已知类别的20种叫A序列中4种碱基的含量及各碱基之间的相关性进行了统计分析,发现不同类别的叫A序列中碱基的排列兵有明显的规律性,由此建立了一种DNA序列分类的方法,井运用统计分析对这种分类方法的合理性给予了检验.
关键词: 碱基;DNA序列;聚类分析;假设检验中图分类号: O212;C8 文献标识码: A
DNA序列是由4个字符a,c,g,t按一定顺序排成的,这4个字符表示4种碱基.当前生物信息学最重要的课题之一是研究由这4个字符排成的看似随机的序列中隐藏着什么规律.
我们有20个巳知类别的人工制造的DNA序列,其中序列标号1~10为A类,11~20为B类.我们的目的是从已知类别的序列中提取特征,构造分类方法,对其它未知类别的序列进行分类.
[1]
1 DNA序列的聚类分析
我们对20个已知类别的人工制造的DNA序列的4种碱基含量个数进行统计得到表1,表2.
表1 DNA序列A类
1.aggcacggmamacgmatmacgagagacttgcacgcattgcacggagacgagggtmgagcttgtctgccgatgtgcmggmgtgg.
2.cggaggacgacgatggcggtgggagJggcggactgttcggggggcggcgcgacgccggtgccagcgga.
3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggagggagggcggcaatcggtacgg.4.atggcgaacggagxgmccagncgcggtagmadtgcagggcttaggtgcgggtgggtfggggggcgggggcg.5.atggcgaacggagxgmccagncgcggtagmadtgcagggcttaggtgcgggtgggtfggggggcgggggcg.
6.gtgagtggggggcggcaggcaggcaggaggcgxmggcgggxmggg4gggacggcggggggmgtgggtattagcggmatggcgcggcacacacacacaca.
7.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatggcggcaggaaggatatggaggcg.8.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.9.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.10.atggattattgaatggcggaggaagtatccggaataaaatagggcggaaagaactgttttcggaaatggaaaaaggatgcggcaggaaggatatggaggcg.
收稿日期:2002-08-05 甘80
肃科学学报 2003年 第2期
序列号
碱基
1
acgt
33194415
230184617
33024507
447122032
5362712
639144414
739114021
831184121
923234817
1020304515
31.8019.5042.5017.10
59.3634.85.4539.98
平均
方差
表2 NAN序列B类
11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttatt.12.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaaa.13.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatattgc.14.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaa.15.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.16.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattaa.17.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatttattccc.18.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatt.19.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatataa.20.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaaattaaatatta.
序列号
碱基
1
acgt
3951155
23631655
328111457
43391355
5320771
091051
739271529
832131055
92416862
102219762
23.5011.2011.1055.20
35.6557.769.69104.90
平均
方差
由此建立表示碱基a,c,g,t含量的向量集合,A类表示为:
a1=(33,19,44,15)/L1,a2=(30,18,46,17)/L2,a3=(3,24,50,7)/L3,a4=(47,12,20,32)/L4,a5=(26,26,47,12)/L5,a6=(39,14,44,14)/L6,a7=(39,11,40,21)/L7,a8=(31,18,41,21)/L8,a9=(23,23,48,17)/L9,a10=(20,30,45,15)/L10,其中Li表示序列i的碱基总数.由上容易得出表示A类碱基a,c,g,t平均含量的向量a=(0.287,0.176,0.0380,
*
0.150).计算向量ai-a*的范数‖ai-a*‖,令Qa=max‖ai-a‖.i相应B类表示为:
b1=(39,5,11,55)/L11,b2=(36,3,16,55)/L22,b3=(28,11,14,57)/L13,b4=(33,9,13,55)/L14,b5=(32,0,7,71)/L15,b6=(40,9,10,51)/L16,b7=(39,27,15,29)/L17,b8=(32,13,10,55)/L18,b9=(24,16,8,62)/L19,b10=(22,19,7,62)/L20.由此算出B类碱基a,c,g,t平
a=max‖bi-b‖.均含量向量b=(0.295,0.102,0.101,0.502).计算范数‖bi-b‖,令Qi
*
*
*
*
由于在DNA序列中,虽然各碱基的含量可以描述它的某些特征,但还不能全面反映它的
结构,因此有必要分析各碱基间的相关性[2].首先给出相关矩阵的定义:
agct
agctc11c21c31c41c12c22c32c42c13c23c33c43c14c24c34c44第15卷 郭 艾:DNA序列分类的统计分析
81
其中c11表示序列中大基a相邻于大基a的左边的次数,c23表示序列中碱基g相邻于碱基c的左边的次数,依次类推.由此建立20个已知类别序列的碱基相关性矩阵,A类为:
109
10411
6
8
466134A1=
1221635
1526814924,A2=1124651012,A3=61611,55143626312
121661372171137A4=
7535
1124101
122291
6312,A5=61235,A6=5900,12621223
3
442261782129114710715A15185112188
282017=
1712,A8=
3924,A9=
41333,
5
7
3
663480
8
4
57742A20110=
5615,2
3
6
4,我们令A*=Ai/Li,通过计算得到A类的碱基平均相关矩阵
0.1040.00.0710.0A*=
0.0410.0170.0930.024
0.0980.0770.1790.024.
0.038
0.0260.0390.050B类相关矩阵为:
173
31615
711275511B305350532511=
31211,B12=
1101,B413=
322
3,
1821
3317223414321821661372171137B755112410112229114=
36312,B15=61235,B16=
5900,
126212233
442261782129114710715B1518511218820117=1712,B18=
823924,B19=
41333,
5
7
3
66
3
480
84
5由于各序列的长短不同 甘82
肃科学学报 2003年 第2期
7
B20=
23
110
701
7415
,
1041136由于各序列的长短不同,我们令B*=Bi/Li,通过计算得到B类的碱基平均相关矩阵
0.01800.03450.03000.1190B=
*
0.02180.03090.1345
0.01630.01450.00820.02180.04380.0250
0.04730.04000.2950.
计算矩阵范数.
*******
‖A*i-A‖,‖Bi-B‖,令RA=max‖Ai-A‖,RB=max‖Bi-B‖.ii
我们的聚类方法是对某一DNA序列,构造出表示它的碱基a,c,g,t含量的向量e和表示它的碱基相关性的相关矩阵E,计算范数ra=‖e-a*‖,rb=‖e-b*‖,SA=‖E-A*‖,SB
=‖E-B*‖,如果ra 我们对A,B2类DNA序列中各碱基的含量以及各碱基间的相关性是否服从正态分布进行W正态检验 [3,4] . 表3 碱基含量的W正态检验 类别AAAAAAAA 碱基acgtacgt 假设N(31.8,59.36)N(19.5,34.85)N(45.5,60.45)N(17.1,39.)N(32.5,35.65)N(11.2,57.76)N(11.1,9.69)N(58.1,98.65) 检验水平A0.050.050.050.050.050.050.050.05 n10109101010109 统计量W0.960.96140.86350.91760.92410.97120.92930.95 Za0.8420.8420.8290.8420.8420.8420.8420。829 结论接受假设接受假设接受假设接受假设接受假设接受假设接受假设接受假设 表4 碱基相关性的W正态检验 类别AAAAAABBBBBB相关碱基 aaatgggccgttaaatgggccgtt假设N(11.5,23.25)N(6,13.19)N(21.4,6.91)N(8.5,14.25)N(10.3,13.41)N(5.6,7.)N(11.9,27.69)N(13.8,3.51)N(2.4,1.84)N(0.9,1.49)N(1.7,l。.01)N(32.5,123.45)检验水平A0.050.050.050.050.050.050.050.050.050.050.050.05n1010910101010910101010统计量W0.87780.85980.84350.91220.96180.91090.91490.86880.86770.74430.87360.95Za0.8420.8420.8290.8420.8420.8420.8420.8290.8420.8420.8420.829结论接受假设接受假设接受假设接受假设接受假设接受假设接受假设接受假设接受假设拒绝假设接受假设接受假设第15卷 郭 艾:DNA序列分类的统计分析 由表 83 3和表4的结论知,A、B召两类的DNA且序列中,各碱基的含量以及相关碱基aa, at,gg,cg,tt在序列中出现的频率服从正态分布,略去其它相关碱基是否服从正态分布的检验 过程,可以近似的认为它们大部分服从正态分布。所以,我们可以对A,B两类的DNA序列之间,它们各碱基的平均含量以及相关碱基出现的频数是否存在显著性差异进行t检验[3,4](见表5).由此可以衡量我们的关于DNA序列的聚类方法是否足够好. 表5 B类差异子A类的t检验 类别BBBBBBBB 碱基acgtatggcgtt 假设u=31.8u=19.5u=42.5u=17.1u=6.0u=21.4u=10.3u=5.6 检验水平A0.050.050.050.050.050.050.050.05 n1010101010101010 统计量t1.050090.750033.5200125.580076.250021.870021.8700 tA22.262.262.262.262.262.262.26 结论差异显著差异很显著差异很显著差异极显著差异很显著差异很显著差异很显著 9.83752.26差异很显著 由表5看出,按照本文构造的聚类法将DNA序列分为A,B2类,在这两类间存在着很显著的差异.由此说明这种分类方法是可行的. 参考文献: [1] 姜启源.数学模型[M].北京:高等教育出版社,1993. [2] 任仁泉.非计数资料的内部相关性研究[J].数理统计与管理,2000,19(3):24-27.[3] 方开泰.实用多元统计分析正[M].上海:华东师范大学出版社,19.[4] 中国科学院数学研究所.方差分析正[M].北京:科学出版社,1984. STATISTICALANALYSISONTHECLASSIFICATIONOFDANSEQUENCE GUOAi (DeptofAppliedMath.SouthChinaUniversityofTechnology,Guangzhou5100,China) Abstract: ThemethodofhierarchicalclusteranalysisisusedtocountupandanalyzethecontentsandcorrelationoffouralkalibasesintwentyDNAsequenceswhosecategoryareknown.ItindicatesthatthepermutationsoffouralkalibasesinDNAsequenceswhichbelongtodifferentcategoryhaveobviouslaw.Fromthis,themethodofclassifyingDNAsequenceisdeveloped.Bymeansofexaminationweprovethemethodofclassificationisrational. Keywords: alkalibase;DNAsequence;clusteranalysis;assumedexamination 作者简介: 郭 艾,(19-)女,陕西省佳县人,1985年毕业于兰州大学数学系,现任华南理工大学应用数学系副 教授. 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务