进化树相关概念和类型介绍
,由 DeepSeek-R1 满血版支持,
来自形态、生化和基因序列数据的证据表明,地球上的所有生物都具有遗传相关性,生物的谱系关系可以用一棵巨大的进化树、生命之树或进化树来表示。
进化树是一种图,其中正在研究的序列表示为叶节点(),内部节点和分支描述序列之间的进化关系。 在大多数情况下,DNA 序列是来自不同生物体()的基因序列,可能代表生物体的实际进化。
分别来自人类、黑猩猩、小鼠和鱼类物种的 4 个基因序列
我们还将假设这些是在各自物种中将葡萄糖转化为能量的同源或等效基因(homologous/equivalent genes)。 4个基因的假设进化树可以从下图看出
这棵树显示了来自四个物种的现代或现存基因是如何相互进化的。 树显示有一个共同的祖先基因(树的根)分裂或进化成2个不同的基因; 一个是当今的 基因,另一个是小鼠、黑猩猩和人类的共同祖先基因。 然后,小鼠、黑猩猩和人类的共同祖先基因进化成今天的 的共同祖先基因。 最终,
分支长度显示了 4 个基因相对于彼此的相对进化。 例如, 序列在从共同祖先序列中分离出来后,进化程度是黑猩猩序列的两倍。 基因序列之间的进化距离是从一个序列到另一个序列的分支长度的总和。
distance(Fish1, Human1) = 3+1+1+2 = 7
,可能代表也可能不代表包含这些基因的物种之间的进化关系。
如果这些基因确实代表了这 4 个物种的进化关系,那么我们就可以说黑猩猩是人类的近亲,老鼠比鱼更接近人类,因为鱼比老鼠更早地与人类发生了分歧。
上面显示的树被称为有根树,因为所有基因的共同祖先的位置是完全已知的(在 和其余序列之间)。
树的另一个版本称为无根树,如下所示
无根树只显示基因的相对关系,并没有确切的起源点或最古老的共同祖先的位置。
Labeled vs unlabeled trees
标记树分配给每个叶分支具有特定的值,而未标记树则没有。
Scaled vs unscaled trees
缩放树的边缘长度与特定单位成比例绘制,例如:进化时间。 未缩放的则没有。
Bifurcating vs multifurcating trees
分叉树的每个内部节点恰好有两个子节点。 多分叉树有两个以上子节点。
Molecular clock hypothesis
假设进化速度在所有独立谱系中都是恒定的,并且树中所有现代序列(present-day sequences)的分支长度与这些序列在时间上的分歧程度成正比。让我们用前面涉及 4 个基因的相同例子来看看这一点。
序列最早与其他三个序列分离或发散,比如 300 万年前。这意味着 序列已经独立进化了 300 万年。然后,在 分化一百万年后, 序列形成(比如 200 万年前),在 形成一百万年后, 基因再次进化,它们已经进化了 100 万年。
根据分子钟假说,由于 基因进化的时间最长,它,因为它们进化的时间。就好像每个基因在形成时就启动了一个分子钟,所有的时钟都以相同的速度滴答作响,因此它们的分支长度对应于这些时钟滴答的时间。分子钟假设产生了一种称为超量树的进化树
的两个重要属性是:
基因的分支长度相等,因为它们已经进化了一百万年
从根(根节点)到所有基因(叶节点)的路径长度相等,因为所有基因的最大进化总周期相等。在我们的例子中,所有四个基因都已经进化了 300 万年。
在本教程中,我们介绍了进化树的概念及其各种类型。在接下来的教程中,我们将考虑使用特定算法从基因测序数据构建进化树

细菌全基因组序列怎么构建系统进化树啊:详细思路解读,一文掌握
Narrow your topic。信息爆炸时代,聚焦自己的主题,是避免知识焦虑的有效手段。
最近我们学习系统进化树,就把相关论文/文档看一看,软件用一用,逐步就会对这一主题有所了解。其中碰到的问题,再深入去学习。
比如群里有朋友问:
请问细菌全基因组序列怎么构建进化树啊 零基础小白一枚[捂脸]
其实稍微了解一下基础知识就明白了。进化树是什么?是直观展示样本之间进化关系的树。那进化的本质原因是什么?是变异。进化树就是展示变异的一种形式。
回到群友的问题,要构建系统进化树,首先要找到基因组序列之间的变异,可以采用的手段有:
对全基因组序列进行多序列比对,然后建树。这是最简单直接的,前提是计算资源和运算时间能够支持。
也可以先简化数据,把全基因组之间的差异,简化成它们之间的SNP、保守基因或者Motif序列之间的差异等。可以极大地减小运算量,这也是非常常见的做法。
所以,要构建系统进化树,就必须找到样本之间的差异。不管是全基因组、SNP、保守基因或者Motif序列,首先要做的就是多序列比对。我们今天就来学习一个非常流行的多序列比对工具:MUSCLE。
MUSCLE全称是Multiple Sequence Comparison by Log-Expectation,是一款开源的快速多序列比对软件。MUSCLE由Robert C. Edgar开发,其最显著的特点是高精度和高速度,在生物信息学界广受欢迎。
MUSCLE采用了渐进式比对和横向精炼的方法来提高多序列比对结果。它通过一系列复杂的步骤,如构建序列发生树、计算Kimura距离矩阵等,来不断优化比对结果,确保我们得到的是最准确的对齐序列。在许多基准测试中,MUSCLE的表现都非常优异,尤其是在中小规模数据集上。
相比于传统的比对工具如ClustalW,MUSCLE在速度上有显著优势。这使得它在处理大量序列时更加高效。
MUSCLE支持多种格式的输入和输出,包括FASTA、Clustal等。这使得它能够与其他生物信息学工具无缝整合。
MUSCLE可以使用多种方法进行序列比对,包括渐进比对、迭代细化和邻接聚类。用户可以根据具体需求选择最合适的方法。
MUSCLE是一款功能强大且高效的多序列比对工具,适用于各种规模的序列比对任务,尤其适合中小规模数据集。无论你是需要进行功能位点识别还是保守区域分析,MUSCLE都能提供高精度的比对结果。而Galaxy平台(usegalaxy.cn)则为MUSCLE的使用提供了更加便捷和高效的环境,使得生物信息学分析变得更加简单。
Galaxy生信云平台(UseGalaxy.cn)致力于降低生信分析门槛,让无专业背景的用户也能轻松分析数据。
• 界面化操作与强大的计算资源。
• 成百上千工具和流程免费使用。
• 丰富的可视化和交互分析工具。
• 强大的数据共享以及协作能力。
系统进化树的构建步骤和常用软件
系统进化树的构建步骤和常用软件
系统发生树(phylogenetic tree 或 evolutionary tree)又名分子进化树,被认为具有共同祖先的各物种间演化关系的树,它用来表示系统发生研究的结果,是生物信息学中描述不同生物之间的相关关系的方法。通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。
如此一来,关注系统分类的亲们就需要先确立一个小目标 —— 构建一棵系统进化树 —— 看看下面的步骤,构建系统进化树拢共需要 5 步。可仅建树方法选择这一步,就有多种选项……
乱花渐欲迷人眼,该选谁好呢?这里就跟大家聊一聊构建和美化进化树的软件:
MEGA(Molecular Evolutionary Genetics Analysis)是文献中经常用到的软件;功能强大,包括序列编辑、进化树构建、祖先序列重构(reconstruction of ancestral sequence)、进化模型选择 (model selection)、选择压检验(selection test)等;
PhyML (http://www.atgc-montpellier.fr/phyml/) 是基于最大似然法原理构建系统发生树的软件,即将系统树的拓扑结构、分支长度及进化模型等的全部或者部分作为需要估计的参数,在给定的数据集及进化模型的基础上,用最大似然法的标准 - 似然值最大化来估计这些参数。首先,要选择进化模型,以简约树或者联接树为基础,采用似然法估计模型中各个参数。设置好参数后,以简约树或者联接树作为起始树,进行似然分析,最后用统计学方法从多个似然树中寻找最佳得分树。
Mrbayes 是贝叶斯推断(Bayesian inference,BI)方法构建系统发育树的软件,利用马尔科夫蒙特卡洛(Markov chain Monte Carlo,MCMC)方法评估模型参数的后验概率。
RAxML 是一款采用最大似然法构建进化树的软件,可在多种平台上运行,不仅可以节约运行内存,还可以减少运行时间,适用于大型数据的进化分析。
FastTree (http://www.microbesonline.org/fasttree/) 是基于最大似然法构建进化树的软件,它最大的特点就是运行速度快,支持几百万条序列的建树任务。官方的说法是,对于大的比对数据集,FastTree 比 phyml 或者 RAxML 快 100 到 1000 倍。
TreeView 是 Windows 系统下最早的系统树显示软,可以满足大多数情况下对系统树显示方式的需求;TreeView 能够输人 nexus 和 Newick 格式的文件,可以将系统树输出保存为几种不同的文本和图像格式
iTOL (https://itol.embl.de/itol.cgi) 对构建进化树进行美化并保持为 *.mwk 的格式,是目前最常使用的图片美化工具。
FigTree(http://tree.bio.ed.ac.uk/software/figtree/)是一款美化进化树注释软件,主要用于制作生物进化系统树,并且支持多种形式进化树,支持有颜色设置、名称更改等功能;Figtree 对进化树的 tip 和 branch 的阴影绘制是十分出色的。newick 格式保存为 txt 格式。导入 Figtree 即可。
相关资讯
细菌全基因组序列怎么构建系统进化树啊:详细思路解读,一文掌握
聚焦主题可避免知识焦虑。构建系统进化树需找出样本差异,如全基因组、SNP 等,常用多序列比对,MUSCLE 是款流行开源软件,精度高、速度快、灵活且有多种比对方法,Galaxy 平台让其使用更便捷......