6 MB/教育学习
该软件只适用于PC端安装使用,请前往PC页面下载
简介
glimmer基因预测软件是时下互联网常用的教育教学软件之一,该软件绿色、安全、无毒,让你可以放心使用。
下面我们拿结核分枝杆菌H37RV的基因组来做下练习,Glimmer做基因预测一般需要2个步奏。
首先是建立预测的模型,第二步是利用模型来对基因组进行基因预测。模型也叫训练集,也就是先让软件了解基因的一些特征,这样软件就能根据已知的信息,来推测未知的信息。
建立模型采用build-icm程序来完成。build-icm的输入有三种。
1、某基因组的已知信息;
2、通过long-orfs产生的长的无重叠的orfs;
3、高度相似的物种的基因。
这里面我们选用自身作为训练集来作为模型。
那么就使用long-orfs产生训练集,那么作为long-orf的训练集,我们首先要将输入文件格式化到一条。
听到这里大家可能有些乱了。下面我们具体来演示一遍大家就明白了。
首先我们将多条fasta文件合并成一条,用于long-orfs程序。
这里面采用sed 命令。
sed -e '/>/d' K12.fna |tr -d '\n' |awk 'BEGIN {print ">wholefile"}{print $0}' >wholefile
这样就可以用作long-orfs的输入了。
运行long-orfs产生无重叠的orfs
long-orfs -n -t 1.15 $wholefile $tagname.longorfs 1>/dev/null 2>/dev/null
然后运行extract来提取训练集
extract -t $wholefile $tagname.longorfs > $tagname.train 2>/dev/null
这样训练集就处理好了。
产生训练集有收那种方法,这里面我们用的是第二种方法,通过long-orfs产生。
如果有某基因组的已知基因,或者高度相似的物种基因不用以上三个步骤
接下来我们运行bulid-icm通过训练集,来生产预测的模型,用于基因预测
build-icm -r $tagname.icm < $tagname.train 1>/dev/null 2>/dev/null
最后我们就可以直接运行glimmer3来完成基因预测。
glimmer3 -o50 -g110 -t30 [options]。
生成*.detail *.predict
那么*.predict就是我们最终得到的预测基因文件,它其实只是一个列表,我们打开看一下。也是以“>"进行分割,
基因的各列信息分别为:
Column 1 预测基因编号,此编号和*.detail文件里编号一致。
Column 2 基因的开始位置。
Column 3 基因的结束位置。为终止密码子的最后一个碱基位置,也就是说包含终止密码子。
Column 4 阅读框。
Column 5 基因的“raw”分值。
基因(遗传因子、遗传基因)指携带有遗传信息的DNA序列,是控制性状的基本遗传单位,亦即一段具有功能性的DNA序列。基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表现。人类约有两万至两万五千个基因。染色体在体细胞中是成对存在的,每条染色体上都带有一定数量的基因。一个基因在细胞有丝分裂时有两个对列的位点,称为等位基因,分别来自父与母辈。按照其控制的性状,又可分为显性基因和隐性基因。一般来说,生物体中的每个细胞都含有相同的基因,但并不是每个细胞中的每个基因所携带的遗传信息都会被表达出来。不同部位和功能的细胞,能将遗传信息表达出来的基因也不同。
展开