进化树专题(三) | 比对及用Gblocks处理比对序列多序列比对是进化分析的基础,有时用来区分一组序列之间的差异,但其主要用于描述序列之间的相似性关系,常用的软件有 Muscle / MAFFT / ClustalW / T-coffee。 2004年Robert C. Edgar发表的文章对这几个软件进行了评估,在准确性和速度方面,Muscle的综合性能是最高的。 01 MUSCLE序列比对 Muscle及其他比对软件都可以接受DNA和Protein序列,输出格式默认是FASTA,也可以根据需要指定其他输出类型 ClustalW / GCG MSF / Phylip format。 命令行运行示例: 可以直接用Muscle 建树,树的格式是Newick format,但是能选用的算法有限,推荐还是使用PhyML v3.0 或 MrBayes。 如果需要进行自然选择分析,如利用 CodeML (PAML) 进行选择压力分析,就需要进行Codons方式比对,依然推荐 Muscle: 选择物种对应的密码子表,进行Codons方式的比对后,可以翻译成对应的氨基酸而不会产生内部终止子。需要注意的是输入的CDS必须完整且不含末端的终止密码子。 参考文献: 02 Gblocks Gblocks(Version 0.91b,http://molevol.cmima.csic.es/castresana/Gblocks_server.html)用于从多序列比对结果中提取保守位点,以利于下一步的进化分析。尤其是差异比较大的序列,比对后Gaps区特别多,更需要用Gblocks做进一步处理。 Gbloks 有两种使用方式,**种是交互式的方式(按提示输入文件改变参数),第二种是命令行方式(在命令行中输入参数)。 -t= Default:p 设置序列的类型,可选的值是 p / d / c 分别代表 protein / DNA / Codons,如果前一步的比对选择的是Codons方式,则该参数设置为-t=c; -b1= Default: 50% of the number of sequences + 1 设定保守性位点必须有 >= 该值的序列数。该参数后接一个 integer 数,默认为序列条数的 50% + 1; -b2= Default: 85% of the number of sequences 确定保守位点的侧翼位点时,其位点必须有 >= 该值的序列数; -b3= Default: 8 **连续非保守位点的长度; -b4= Default: 10 保守位点区块的最小长度。该值必须 >=2; -b5= Default: n 设置允许含有 Gap 位点。可选的值有 n / h / a 分别代表 None / With Half / All; -b6= Default: y (Use Similarity Matrices) 默认使用相似性矩阵,仅适用于蛋白比对序列。 -e= default: -gb 设置输出结果的后缀。
参考文献: Talavera, G., and Castresana, J. (2007). Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments. Systematic Biology 56, 564-577. |