Science：寻找宏基因组序列结构

来源：:pippi 发布者：左丽媛日期：2017-01-24

对于蛋白质，外观很重要。这些重要的分子主要形成细胞的结构并执行其功能：蛋白质调控生长和影响迁移率，用作催化剂，以及运输或存储其他分子。蛋白质由长的氨基酸链（肽链）组成，一维氨基酸序列在纸上似乎毫无意义。然而，当从三维结构来看时，研究人员可以清楚地看到蛋白质的结构是什么，以及显而易见什么是蛋白质的结构，特别是其折叠的方式决定了它的功能。

在数据库 Pfam 中有接近 15,000 个蛋白质家族—起源于同一进化分枝。对于几乎三分之一（4,752）的这些蛋白质家族来说，在每个家族中存在至少一种结构清楚地蛋白质；对于另外三分之一（4,886）的蛋白质家族，可以用一定程度的置信度建立比较模型；然而，对于数据库中最后的第三（5,211）个蛋白家族，不存在蛋白质的结构信息。

在 2017 年 1 月 20 日发表的 Science 杂志上，由华盛顿大学大卫·贝克（David Baker）领导的一个小组与美国能源部联合基因组研究所（DOE JGI）合作，DOE Science User Facility 的研究人员报告说，生成了 614 个蛋白质模型（占 12% 以前没有可用结构信息的蛋白家族）。 “在 5 年前做不到的，现在可以使用计算机建模方法完成。”团队在他们的文章中指出。这一成就通过合作成为可能，其中贝克实验室的蛋白质结构预测服务器 Rosetta 分析了由 DOE JGI 运行的集成微生物基因组（IMG）系统上公开可获得的宏基因组序列。

“在 Pfam 数据库中大量的蛋白家族只有少数序列”Baker 实验室的研究生 Sergey Ovchinnikov，文章一作说， “这导致了两个后果：1）没有人关心这些蛋白质家族（因为他们太小了）；2）共进化的研究方法不能用于研究它们。随着宏基因组学的发展，我们发现，其中一些被忽视的蛋白质家族到目前为止只有几个序列，考虑到大规模的红基因组学数据，现在可以尽可能多的进行研究。另外，我们可以提供一个来自蛋白质家族中有代表性的 3D 模型，我们希望这将引起研究者在蛋白质家族中的研究兴趣“。

拥有基因组序列，像 Baker 这样的研究人员已经能够鉴定同时进化的氨基酸组，即使它们在未折叠的链上彼此不相邻。研究表明这些氨基酸与折叠蛋白质相邻，给研究者关于蛋白质的结构研究的提示。结构上的接近预示功能上相互关联，因此作用于功能上的自然选择可以不仅仅偏好一个氨基酸，而且偏好集合中的所有氨基酸。

DOE JGI Prokaryote 超级项目负责人 Nikos Kyrpides 表示，贝克实验室和 DOE JGI 之间的合作允许该团队能够提供一种强大的预测蛋白质结构和结构排列的方法。“这样的努力，以前只限于在分离基因组上的序列产生的蛋白质家族，这些分离基因组包含约 200 万个序列。正如我们预期的那样，当我们添加了这些宏基因组学数据时，我们给分离基因组上发现的序列 IMG / M 数据库添加了 5 亿个聚集的宏基因组序列，能够显着增加许多已知蛋白质家族的覆盖范围。这样的努力在很大程度上取决于组装的宏基因组序列的可用性，这是 DOE JGI 带来的优势，提供了高质量装配“。

Kyrpides 补充说，这项工作，也涉及 DOE JGI 研究员 Neha Varghese 和乔治 Pavlopoulos，体现了另一种合作，他希望看到鼓励。 “人们之所以跟我们合作，是因为我们拥有最大的宏基因组的集成，这些工具在我们的数据上的应用提供了一个很好的例子，更大的社区如何利用 JGI 资源进行探索。我们期待像 JGI 和国家能源研究科学计算中心（NERSC）之间的新型数据科学电话的成功故事。

JGI-NERSC 微生物组数据科学电话将使用户能够执行最先进的计算基因组学和宏基因组学研究，并帮助他们将由 DOE JGI 或其他地方生成的序列信息转化为生物发现。该提案呼吁建立在“整合用户科学合作设施”（FICUS）计划的成功之上，旨在鼓励和使研究人员能够更容易地将多个国家用户设施的专业知识和能力集成到他们的研究中。

双周热点

人才计划


关注我们的微博