科学探索|科学家们公布完整的人类基因组序列 并揭示了新的遗传秘密( 二 )


文章图片

Altemose说:“没有蛋白质 , DNA就什么都不是 。”在获得牛津大学统计学博士学位后 , 他于2021年在加州大学伯克利分校和旧金山分校联合获得了生物工程博士学位 。“DNA是一组指令 , 如果它周围没有蛋白质来组织它 , 调节它 , 在它受损时修复它 , 并复制它 , 就没有人可以读懂它 。蛋白质与DNA的相互作用确实是基因组调控的所有行动发生的地方 , 能够绘制出某些蛋白质与基因组结合的位置 , 对于理解它们的功能真的很重要 。”
在T2T联盟对缺失的DNA进行测序后 , Altemose和他的团队使用新技术找到了着丝粒内的位置 , 在那里 , 一个被称为"动粒"的大蛋白复合物牢固地抓住了染色体 , 以便细胞核内的其他机器能够将染色体对拉开 。
他说:“当这出错时 , 你最终会出现染色体错误分离的情况 , 而这将导致各种问题 。如果这发生在减数分裂中 , 这意味着你可能出现染色体异常 , 导致自发流产或先天性疾病 。如果它发生在体细胞中 , 你可能最终患上癌症--基本上 , 有大量错误调节的细胞 。”
他们在着丝粒内和周围发现的是新的序列层叠在旧的序列层上 , 就像通过进化 , 新的着丝粒区域被反复铺设以结合到动粒上 。旧区域的特点是有更多的随机突变和缺失 , 表明它们不再被细胞使用 。较新的与动粒结合的序列变化较少 , 而且甲基化程度也较低 。甲基化的增加是一个表观遗传标签 , 倾向于使基因沉默 。
着丝粒内和周围的所有层都是由重复长度的DNA组成的 , 基于一个大约171个碱基对长的单位 , 这大约是包裹着一组蛋白质形成核糖体的DNA的长度 , 保持DNA的包装和紧凑 。这些171个碱基对的单位形成了更大的重复结构 , 被串联重复多次 , 在着丝粒周围建立了一个大的重复序列区域 。
T2T团队只关注一个人类基因组 , 该基因组是从一个被称为葡萄胎的非癌症肿瘤中获得的 , 它本质上是一个拒绝母体DNA而复制其父体DNA的人类胚胎 。这样的胚胎会死亡并转化为肿瘤 。但是这个痣有两个相同的父系DNA副本--都带有父亲的X染色体 , 而不是来自母亲和父亲的不同DNA--这一事实使它更容易测序 。
Altemose说 , 研究人员本周还发布了一个来自不同来源的Y染色体的完整序列 , 该序列花费的时间几乎与基因组的其他部分加起来一样长 。对这个新的Y染色体序列的分析将出现在未来的出版物中 。

科学探索|科学家们公布完整的人类基因组序列 并揭示了新的遗传秘密
文章图片

Altemose和他的团队 , 包括加州大学伯克利分校的项目科学家Sasha Langley , 还用新的参考基因组作为支架 , 比较了来自世界各地的1600个个体的中心粒DNA , 揭示了着丝粒周围重复DNA的序列和拷贝数的重大差异 。以前的研究表明 , 当古人类群体从非洲迁移到世界其他地方时 , 他们只带走了一小部分基因变体的样本 。Altemose和他的团队证实 , 这种模式延伸到了着丝粒 。
Altemose说:“我们所发现的是 , 在非洲大陆以外的具有近期血统的个体中 , 他们的着丝粒 , 至少在X染色体上 , 往往分为两个大的集群 , 而大多数有趣的变异是在具有近期非洲血统的个体中 。鉴于我们对基因组其他部分的了解 , 这并不完全是一个惊喜 。但它所表明的是 , 如果我们想看看这些着丝粒区域的有趣变异 , 我们确实需要集中精力对更多的非洲基因组进行测序 , 并进行完整的端粒到端粒的序列组装 。”