科学探索|科学家们公布完整的人类基因组序列 并揭示了新的遗传秘密

当科学家们在2003年宣布人类基因组的完整序列时 , 实际上当时仍有大约8%尚未被完全破译 。这主要是因为它由高度重复的DNA片段组成 , 很难与其他部分啮合 。但是 , 一个为期三年的联盟终于填补了剩余的DNA研究空白 , 为科学家和医生提供了第一个完整的、无间隙的基因组序列供参考 。

科学探索|科学家们公布完整的人类基因组序列 并揭示了新的遗传秘密
文章图片

新完成的基因组被称为T2T-CHM13 , 代表了目前参考基因组的一个重大升级 , 该基因组被医生用来寻找与疾病有关的突变 , 以及被研究人类遗传变异进化的科学家使用 。
除其他事项外 , 新的DNA序列揭示了关于着丝粒(centromere)周围区域的前所未有的细节 , 着丝粒是细胞分裂时染色体被抓取和拉开的地方 , 确保每个“子”细胞继承正确的染色体数量 。这个区域内的变异性也可能为我们的人类祖先如何在非洲进化提供新的证据 。
加利福尼亚大学伯克利分校的博士后研究员Nicolas Altemose说:“揭示这些以前缺失的基因组区域的完整序列告诉我们很多关于它们是如何组织起来的 , 这对于许多染色体来说是完全未知的 。”他是四篇关于已完成基因组的新论文的共同作者 。“以前 , 我们只是对那里的情况有最模糊的了解 , 而现在它已经清晰到了单碱基对的分辨率 。”
Altemose是一篇描述着丝粒周围碱基对序列的论文的第一作者 。一篇解释如何进行测序的论文出现在4月1日的《科学》杂志印刷版上 , 而Altemose的着丝粒论文和其他四篇描述新序列告诉我们什么的论文在该杂志上进行了总结 , 论文全文发布在网上 。四篇配套论文 , 包括Altemose是共同第一作者的一篇 , 也于4月1日在《自然方法》杂志上在线发表 。
测序和分析是由一个由100多人组成的团队完成的 , 即所谓的“端粒到端粒”联盟(T2T) , 以覆盖所有染色体末端的端粒命名 。该联盟的所有22条常染色体和X性染色体的无间隙版本由30.55亿个碱基对组成 , 这些碱基对是构建染色体和我们的基因的单位 , 还有19969个蛋白质编码基因 。在蛋白质编码基因中 , T2T团队发现了大约2000个新的基因 , 其中大部分是禁用的 , 但其中115个可能仍在表达 。他们还在人类基因组中发现了大约200万个额外的变体 , 其中622个发生在医学相关的基因中 。
“将来 , 当某人的基因组被测序时 , 我们将能够识别他们DNA中的所有变体 , 并利用这些信息更好地指导他们的医疗保健 , ”T2T的领导人之一、美国国立卫生研究院国家人类基因组研究所(NHGRI)的高级调查员Adam Phillippy说 。“真正完成人类基因组序列就像戴上了一副新眼镜 。现在我们可以清楚地看到一切 , 我们离理解这一切意味着什么又近了一步 。”
不断演变的着丝粒
着丝粒内和周围的新DNA序列共占整个基因组的6.2% , 即近1.9亿个碱基对 , 或核苷酸 。在剩下的新增加的序列中 , 大部分被发现在每条染色体末端的端粒周围和核糖体基因周围的区域 。整个基因组仅由四种类型的核苷酸组成 , 这些核苷酸以三组为单位 , 对用于构建蛋白质的氨基酸进行编码 。Altemose的主要研究涉及寻找和探索染色体上蛋白质与DNA相互作用的区域 。

科学探索|科学家们公布完整的人类基因组序列 并揭示了新的遗传秘密