您的位置:首页 >生活 >

工程师开发创新的微生物组分析软件工具

导读 分析宏基因组数据可能是一项艰巨的任务,就像拼凑几块巨大的拼图,所有碎片都混杂在一起。面对这一独特的计算挑战,莱斯大学图形人工智能(A

分析宏基因组数据可能是一项艰巨的任务,就像拼凑几块巨大的拼图,所有碎片都混杂在一起。面对这一独特的计算挑战,莱斯大学图形人工智能(AI)专家SantiagoSegarra和计算生物学家ToddTreangen联手探索如何利用AI驱动的数据分析来开发新工具,以增强宏基因组学研究。

这两位科学家专注于两种类型的数据,这两种类型的数据使得宏基因组分析特别具有挑战性——重复和结构变异——并开发了处理这些数据类型的工具,其性能优于当前的方法。

重复是指在单个生物体的基因组中以及生物群落的多个基因组中重复出现的相同DNA序列。

“来自多个生物体的宏基因组样本中的DNA可以表示为一个图表,”电气和计算机工程助理教授Segarra说道。“本质上,我们开发的工具之一利用了这个图表的结构来确定哪些DNA片段在不同微生物之间或同一微生物内重复出现。”

该方法被称为GraSSRep,它结合了自监督学习(一种机器学习过程,其中人工智能模型训练自己以区分隐藏和可用输入)和图神经网络(一种处理以图形表示对象及其互连的数据的系统)。这篇经过同行评审的论文在第28届年度计算分子生物学研究国际会议RECOMB2024上发表。该项目由莱斯大学研究生兼研究助理AliAzizpour领导。莱斯大学博士校友AdvaitBalaji也是这项研究的作者之一。

重复序列之所以受到关注,是因为它们在生物过程中发挥着重要作用,例如细菌对环境变化的反应或微生物群与宿主生物的相互作用。重复序列发挥作用的一个具体例子是抗生素耐药性。一般来说,追踪细菌基因组中重复序列的历史或动态可以揭示微生物的适应或进化策略。更重要的是,重复序列有时实际上是伪装的病或噬菌体。噬菌体源自希腊语中的“吞噬”一词,有时用于杀细菌。

“这些噬菌体实际上看起来像重复序列,因此你可以根据基因组中包含的重复序列来追踪细菌-噬菌体动态,”计算机科学副教授Treangen说。“这可以为如何摆脱难以杀的细菌提供线索,或者更清楚地描绘出这些病如何与细菌群落相互作用。”

以前,当使用基于图形的方法进行重复检测时,研究人员使用预定义的规范来查找图形数据中的内容。GraSSRep与这些先前方法的不同之处在于,它缺乏任何此类预定义参数或参考来告知如何处理数据。

“我们的方法学习如何更好地使用图形结构来检测重复,而不是依赖于初始输入,”Segarra说。“自我监督学习允许该工具在没有任何基本事实的情况下自我训练,以确定什么是重复,什么不是重复。当你处理宏基因组样本时,你不需要知道其中的内容就可以对其进行分析。”

Segarra和Treangen共同开发的另一种宏基因组学分析方法也是如此⎯通过长读取共组装图(rhea)检测微生物组中的无参考结构变异。他们关于rhea的同行评审论文将在7月12日至16日在蒙特利尔举行的国际计算生物学学会年会上发表。该论文的主要作者是莱斯大学计算机科学博士校友KristenCurry,她将以博士后科学家的身份加入RayanChikhi的实验室⎯也是该论文的共同作者⎯在巴黎巴斯德研究所工作。GraSSRep

旨在处理重复,而rhea可处理结构变异,即10个碱基对或更多碱基对的基因组改变,由于其在各种疾病、基因表达调控、进化动力学和促进种群内和物种间遗传多样性中的作用,与医学和分子生物学相关。

Treangen表示:“在分离的基因组中识别结构变异相对简单,但在宏基因组中识别结构变异则比较困难,因为宏基因组中没有明确的参考基因组来帮助对数据进行分类。”

目前,处理宏基因组数据的广泛使用的方法之一是通过宏基因组组装基因组或MAG。

“这些从头组装或参考指导组装是相当成熟的工具,需要一整套操作流程,重复检测或结构变异识别只是其中的一些功能,”Segarra说。“我们正在研究的一件事是用我们的算法取代现有的算法,看看这如何能提高这些广泛使用的宏基因组组装的性能。”

Rhea不需要参考基因组或MAG来检测结构变异,并且当对两个模拟宏基因组进行测试时,它优于依赖此类预定参数的方法。

“这一点尤其引人注目,因为我们获得的数据的粒度比使用参考基因​​组时要大得多,”Segarra说道。“我们目前正在研究的另一件事是将该工具应用于现实世界的数据集,看看结果与生物过程有何关联,以及这可能给我们带来什么见解。”

Treangen表示,GraSSRep和rhea的结合——在此领域先前贡献的基础上——有可能“揭示控制微生物进化的根本生命规则”。

这些项目是Segarra和Treangen实验室多年合作的成果。

“这是在不同专业领域进行多年合作研究的成果,这使我们的学生Ali和Kristen能够挑战现有范式并开发新方法来解决宏基因组学中现有的问题,”Treangen说道。

免责声明:本文由用户上传,如有侵权请联系删除!