细菌全基因组序列怎么构建系统进化树啊:详细思路解读,一文掌握
Narrow your topic。信息爆炸时代,聚焦自己的主题,是避免知识焦虑的有效手段。
最近我们学习系统进化树,就把相关论文/文档看一看,软件用一用,逐步就会对这一主题有所了解。其中碰到的问题,再深入去学习。
请问细菌全基因组序列怎么构建进化树啊 零基础小白一枚[捂脸]
其实稍微了解一下基础知识就明白了。进化树是什么?是直观展示样本之间进化关系的树。那进化的本质原因是什么?是变异。进化树就是展示变异的一种形式。
回到群友的问题,要构建系统进化树,首先要找到基因组序列之间的变异,可以采用的手段有:
所以,要构建系统进化树,就必须找到样本之间的差异。不管是全基因组、SNP、保守基因或者Motif序列,首先要做的就是多序列比对。我们今天就来学习一个非常流行的多序列比对工具:MUSCLE。
MUSCLE全称是Multiple Sequence Comparison by Log-Expectation,是一款开源的快速多序列比对软件。MUSCLE由Robert C. Edgar开发,其最显著的特点是高精度和高速度,在生物信息学界广受欢迎。
MUSCLE采用了渐进式比对和横向精炼的方法来提高多序列比对结果。它通过一系列复杂的步骤,如构建序列发生树、计算Kimura距离矩阵等,来不断优化比对结果,确保我们得到的是最准确的对齐序列。在许多基准测试中,MUSCLE的表现都非常优异,尤其是在中小规模数据集上。
相比于传统的比对工具如ClustalW,MUSCLE在速度上有显著优势。这使得它在处理大量序列时更加高效。
MUSCLE支持多种格式的输入和输出,包括FASTA、Clustal等。这使得它能够与其他生物信息学工具无缝整合。
MUSCLE可以使用多种方法进行序列比对,包括渐进比对、迭代细化和邻接聚类。用户可以根据具体需求选择最合适的方法。
MUSCLE是一款功能强大且高效的多序列比对工具,适用于各种规模的序列比对任务,尤其适合中小规模数据集。无论你是需要进行功能位点识别还是保守区域分析,MUSCLE都能提供高精度的比对结果。而Galaxy平台(usegalaxy.cn)则为MUSCLE的使用提供了更加便捷和高效的环境,使得生物信息学分析变得更加简单。

数据趋势如何判断
无论是制定预算、优化库存管理,还是探索新业务的潜力,时间序列预测都扮演着关键角色。本文将深入探讨时间序列预测的常见应用场景,介绍几种经典的时间序列模型(如移动平均、指数平滑、Holt-Winters、ARIMA和Prophet),并讲解如何评估模型效果,希望可以帮到大家。
上一篇Deepseek生成预测报告有点小激动,还没解释模型,现在补一下
在上一篇文章中实操了一下预测,但对这些模型还没做说明,接下来统一解释。
时间序列模型很重要的特点是,除时间外它只有一个变量,它所研究的是如何加工这一个变量,找到它随时间变化的,再进行预测,而没有通过其他相关数据辅助预测。举例来说,预测未来一个季度的销量,变量只有历史的销量,而不含有流量、转化率等数据。
看公式很容易理解,间隔为n的时间窗口内的平均值,该值可作为T+1的预估值,适用场景通常为趋势稳定的数据,如果数据有周期性,会出现预测峰谷值同实际错位的情况。
y^为预测值,y为实际值,α为平滑系数,范围(0,1),α越大近期更敏,感适合波动较大的数据,反之越平滑适合稳定趋势。T+1的预测值,为t天实际值和预测值的加权所得。3. Holt-Winters
包含水平平滑、趋势平滑、季节性平滑。
有点抽象,举个例子说明,假如如下对应每个季度的商品销售量,现在想要预测2025Q1(t=9)的销量
假设参数设定:α=0.3(水平) β=0.2(趋势) γ=0.1(季节性),季节周期:m=4
预测2024Q1(t=5):y5预估=l4+b4+s5-4=130+6.67-30=106.67,实际y5=120
更新预测参数,即t=5对应的预估值,
以此类推,可得到y9预估值=l8+1*b8+s9-4*2=149.63
虽然手动算麻烦一点,但以上这两种方式,确实可以通过计算看到数据和趋势变化如何产生。
接下来要聊的两种方法,就不足以通过手动计算了。
4. ARIMA(p,d,q)。时间序列预测很古典和著名的方法。
p为参数,核心解决的是预测未来的数据,应该选历史多少个时间点的数据更好,最远的时间是t-p,因此p为参数。
q为参数,要解决的是y实际值和y预测值之间的差,选择历史上多少个时间点更好,最远时间为t-q,因此q为参数。
差分部分,d为参数,要解决的是 yt-yt-1 这样做几阶差分更好,为的是把非平稳的数据转换为平稳数据。
先通过ADF检验对d进行差分检验(与统计临界值对比),在通过ACF(自相关函数)和PACF(偏自相关函数)分别对p和q进行检验,通过AIC和BIC对模型复杂性评估后可得到更为合理的p、q值。
5. Prophet。时间序列进化到Prophet,操作更友好了。
模型是由三个小模型组成,ϵt 为误差项
该模型很好理解,且命中了趋势预测里经常要思考的几个问题:如果趋势有上升和下降几段趋势怎么办?周期性的数据并非完全自然周期怎么办?遇上突发事件出现某个点异常怎么办?过往的时间序列模型很难进行拟合和描述,不过Prophet解决了这个问题。
这里对具体公式不详细展开,感兴趣可在参考资料里了解,这里主要介绍模型参数的作用,对实操会更有帮助。
holidays_df = pd.DataFrame({
‘holiday’: ‘promo’,
‘ds’: pd.to_datetime([‘2022-11-11’, ‘2023-11-11’, ‘2024-11-11’]),
‘lower_window’: -30, #双11前30天
‘upper_window’: 2 #双11后2天
后边也有新的升级 Neural Prophet,如果感兴趣也可以再查找了解。
预测时数据会切分成两部分,训练集和测试集,评估模型效果简单来讲就是拿训练集得到模型,后再去预测测试集对应的数值,把测试集的真实结果同预测结果比对,差异越小说明预测越准确,但也要兼顾鲁棒性,注意不要过拟合。
几个线性模型评价模型准确度的指标和计算公式如下,比较简单就不做过多解释了。
MAPE 平均绝对百分比误差(使用时不能有0,且去量纲可比较不同数据集)
知乎文章《时间序列原理篇之Facebook Prophet算法》
知乎文章《时间序列模型(四):ARIMA模型》
本文由人人都是产品经理作者【小王子和小企鹅】,微信公众号:【小王子和小企鹅】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
生态健康联盟与武汉病毒所等联合分析中国蝙蝠冠状病毒序列进化模式的论文最新发表
生态健康联盟与武汉病毒所等联合分析中国蝙蝠冠状病毒序列进化模式的论文最新发表 | 绿会国际部COVID-19速递
2020年8月26日,生态健康联盟(EcoHealth Alliance)和其主席Peter Daszak博士都通过社交媒体,与世界分享一条最新动态——生态健康联盟的一篇分析中国蝙蝠冠状病毒序列进化模式的论文终于在8月25日于《自然通讯》(Nature Communications)杂志发表了。
(来源:Peter Daszak社交媒体截图)
该论文标题为《蝙蝠冠状病毒在中国的起源和跨物种传播》(Origin and cross-species transmission of bat coronaviruses in China)。其摘要如下:
蝙蝠被认为是多种冠状病毒(CoVs)的宿主,包括严重急性呼吸综合征(SARS,非典)-CoV和SARS-CoV-2(COVID-19的病原体)的祖细胞。然而,这些冠状病毒的进化和多样化仍然知之甚少。
该论文的研究团队利用贝叶斯统计框架和中国的蝙蝠冠状病毒的大序列数据集(包括630条新的冠状病毒序列)研究了蝙蝠冠状病毒的宏观进化、跨物种传播和扩散。他们发现,与β-CoV相比,在α-CoV中的宿主转换在亲缘关系较远的宿主类群中发生得更频繁,并且β-CoV的宿主转换更受系统发育距离的限制。该研究表明,在菊头蝠科和菊头蝠属中,科间和属间切换是最常见的。
(来源:生态健康联盟社交媒体)
科学家团队的这项分析确定了宿主类群和地理区域,确定了中国冠状病毒进化多样性的热点,可以帮助发现蝙蝠冠状病毒,进行主动的人畜共患病的监测。
最后,科学家们提出了一个系统发育分析,表明新型冠状病毒SARS-CoV-2可能的起源是菊头蝠属蝙蝠。
该论文的科学家作者来自于包括生态健康联盟和中国科学院武汉病毒研究所(石正丽团队)等机构。
《自然通讯》论文:《蝙蝠冠状病毒在中国的起源和跨物种传播》
文/牛静美 审/绿宣 编/Angel
相关资讯
进化树相关概念和类型介绍
文章浏览阅读7.7k次,点赞5次,收藏13次。本文介绍了进化树的概念,包括有根和无根树、标记与未标记树、缩放与未缩放树以及分叉与多分叉树。通过一个例子阐述了分子钟假说,它假设进化速度......