科学探索|AlphaFold2 爆火背后 人类为什么要死磕蛋白质( 二 )


对于早期的生化学家来说 , 研究蛋白质的困难在于难以获取大量的纯化的蛋白质用于研究 , 因此早期的研究工作就是在各种纯化蛋白质的路上 。后来有生物公司 1950 年在牛胰腺中纯化了核糖核酸酶 a , 并免费提供给科学家使用 , 科学家的大量试验逐渐打开 。
1949 年 , 英国生化学家桑格用 8 年的时间测试出了胰岛素(蛋白质)的 51 个氨基酸的排列顺序 , 验证了蛋白质是由氨基酸所形成的线性多聚体 。因这一研究桑格被授予 1958 年诺贝尔化学奖 。人们运用桑格的方法对许多别的蛋白质迅速进行了测序 , 桑格的研究为 1965 年第一次人工合成胰岛素铺平了道路 。
人类第一次知悉蛋白质分子结构是在 1959 年 , 英国科学家 Max Perutz 利用 X 射线衍射的方法 , 根据射线被散射的角度推测电子的位置解析了肌红蛋白分子的三维结构 , 自此之后 , X 射线衍射成为解析高分辨率蛋白质结构最有力的工具 。除了 X 射线衍射之外 , 后期科学家们常用的研究工具还有核磁共振与冷冻电子显微镜技术 。
科学探索|AlphaFold2 爆火背后 人类为什么要死磕蛋白质
文章图片
虽然有设备辅助研究 , 但是现实测试技术的局限 , 施行起来成本过高 , 按照传统的实验步骤 , 从基因序列到相应的蛋白质结构测定之间还要经过基因表达、蛋白质的提取和纯化、结晶、X 射线衍射分析等步骤 。由于蛋白质结构和性质的多样性 , 这些步骤大多没有固定的规律可循 。
历史上有科学家耗费几十年时间才能得到一个清晰的蛋白质三维结构 , 蛋白质三维结构的测定成了生物学领域非常困难的研究 。至今为止没有 AI 技术的协助 , 三维结构被看清的量也仅仅只有 17 万个 , 这跟蛋白质的总量相比差距大的跟九牛一毛似的 。
对于蛋白质的结构来说 , 就算我们看得清测得出它的形态 , 但是关于其折叠的方向在三维空间中有 10^300 种方式 , 为何就选择折叠为现在的状态 , 这个过程和选择的路径没法解析 。因为研究的方法与内容都极其困难 , 所以研究蛋白质的结构以及定性就真的只有死磕这一条路了 。半个多世纪以来 , 研究蛋白质结构的相关工作只要有新的发现就会喜提诺贝尔奖 , 至今为止仅仅蛋白质领域已经拿过 20 多项诺贝尔奖 。
也有一批科学家跳出肉眼观测的技术思路困境 , 另辟蹊径 , 绕开费事费钱的传统技术的试验步骤 , 从蛋白质的氨基酸序列直接进行计算预测它们的三维结构 。
站在 AI 巨人肩膀上研发
实现从氨基酸预测蛋白质结构的大前提就是计算机技术的发展 。1998 年 , 华盛顿大学的 David Baker 教授开发了一套名为“Rosetta”(罗塞塔石碑)的计算机程序来预测蛋白质结构 。但是因为算力的有限 , 不能暴力地穷举 , 因此在早期的预测中 , 主要用来处理氨基酸数量很小、排列比较规则的蛋白质 。对于复杂的蛋白质也只能望洋兴叹了 。
为了获得对蛋白质结构预测技术水平的客观评估 , 由马里兰大学的 John Moult 领导的一组科学家在 1994 年创立了 CASP(结构预测的关键评估) , 预测者可以在一个双盲框架内评估他们的方法 , 以促进研究、监测进展 , 并建立蛋白质结构预测的最新水平 。