28 MB/教育学习
该软件只适用于PC端安装使用,请前往PC页面下载
简介
Topali(多序列比对统计和进化分析软件)是一款教学辅助软件,多序列比对的统计与进化分析。 时下互联网常用的教育教学软件之一,该软件纯绿色免费无毒,请放心使用。
双序列比对是序列分析的基础·然而,对于构成基因家族的成组的序列来说,我们要建立多个序列之间的关系,这样才能揭示整个基因家族的特征·多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。
序列是最基本的数学模型, 它可以用来描述核酸分子和蛋白质分子的一级结构。对序列的操作有助于对生物大分子的研究, 尤其是对序列进行比对( alignment)。多序列比对问题是计算分子生物学中最基本的问题之一。通过多序列比对, 研究者可以挖掘出更多的保守区间与结构信息。因此它是许多问题的基础, 比如片断组装、基因发现、构建进化树、PCR 引物设计、多态位点( SNP)的寻找、预测同源序列的二级结构、蛋白质相互作用预测等。
由于人工比对的复杂性和生物序列中的功能不确定性, 无法用生物意义统一地衡量比对的效果。因此人们主观地根据比对后各个序列之间差异的大小来衡量。用来计算差异性的数学模型(目标函数)主要有三种: 比对和函数( sum - of- pairs functions)、一致性函数( consensus functions)和树函数( tree functions) , 其中使用最普遍的是比对和函数, 其分值一般简称为SP值。目前的多序列比对算法都旨在寻找具有最优SP值的比对, W ang 等已经证明该问题是一个NP难题; 他们同时证明了其他几种主要的目标函数最优化问题均是NP 难题。
对于这种重要的难题, 目前的处理方法主要是: 近似算法、启发式方法和引入其他信息。近似算法的思想是: 既然无法在多项式时间内找到最优解, 那么设法在多项式时间内找到一个次优解, 并且证明该次优解与最优解间的距离在一定范围内。启发式方法的主要思想是: 既然无法在多项式时间内遍历整个空间, 那么在有限的时间内遍历尽量广泛、最优解存在可能性大的空间。虽然无法证明启发式方法解的收敛区域, 但实验证明启发式方法往往可以得到较好的效果。另外, 针对不同NP难题的实际背景, 可以结合如相关的领域知识, 从而简化问题。对于生物大分子序列的比对问题, 如果知道其比对后的长度和部分保守区间, HMM 模型通常可以被应用。由于上世纪90年代人类基因组计划的实施, 在国际上对多序列比对问题的研究比较早, 而且方法较为成熟。目前主要的软件有c lusta l系列和T- coffee系列。下面详细介绍各种多序列比对方法。
多序列比对和系统发育分析是生物信息学的重要研究领域。通过多序列比对-和系统发育可以预测新序列的结构和功能,分析序列之间的同源关系。提高序列的多序列比对准确率和重构合理的全基因组系统发育树是该领域的主要研究课题。本文对此进行了深入研究和探讨,主要研究成果如下: 本文借了ClustalW和T-Coffee算法,综合了渐进比对和序列间一致性策略的优点,提出了一种新的渐进多序列比对算HMMPC。HMMPC先通过pai-HMM计算出每两条序列间每个残基匹配的后验概率,并结合其它序列的信息,得出每两条序列中每个残基的最终匹配后验概率,最后由这些后验概率值进行渐进比对。将本算法同C1ustalW和T-Coffee等一些主流算法在BAliBASE库数据集上进行了比较研究。实验结果表明,本算法能有效地提高多序列比对的准确性。 两条序列相似度的计算是渐进比对和系统发育树分析的基础,本文引入一种新的计算序列间进化距离的免比对方法—SimKMM。该方法利用了相对熵的原理,建立每条序列的Markov模型,最后,利用HMM的距离测度公式计算每两条序列间的进化距离,该函数计算简单、快速,且不需要人为设置参数,因此,能够更客观、有效地计算序列间的进化距离。用本算法对6条DNA序列进行了相似度测量,且将该算法用于DNA数据库搜索中,都验证了本算法有较好的实用性。
展开