清华大学|原子尺度上的追逐|专访张强锋:为何27岁从零开始学生物( 三 )
整个流程目前涉及大量的非自动化工作 。 张强锋介绍 , “这里面的付出非常大 , 比较形象来理解的话 , 就是我投入了人力物力50万元获得样本、采集数据 , 但是我还要花50万元去进行高性能的计算 , 拍的照片需要经过非常复杂的处理才能最后搭建出结构 。 ”目前常规的方法是采用非常复杂的数学计算 , 由几百台几千台机器组成的运算中心或者超级计算机去完成 。
他的方案是用人工智能的方法去取代高性能计算 。 “这是我们实验室的重要研究方向 , 如果做得好 , 就会节省非常多的超级计算的工作 , 但这个需要我们对结构生物学、计算机图像、人工智能都有很好的理解 。 ”
张强锋进一步解释 , “我们最终可以把计算的东西放到一个非常复杂的神经网络里 , 本来可能要通过一步一步地算100万次 , 才能从原始的图像到三维图像 , 但我们可以一步映射过去 , 但付出的代价是要有一个复杂的模型 , 这个模型里面有百万甚至千万个参数 。 ”
在其看来 , 包括结构生物学在内的整个大生命科学都呈现出一个特征 , 即计算数据量越来越大 , 而人工智能这样的手段越来越有用 。 他认为 , 以前在生物学领域采用的研究模型都相对简单 , “但生命系统是一个非常复杂的系统 , 它有非常多的因素 , 因素之间互相影响 , 你没有办法把其他因素固定下来去看其中一个因素 , 这就导致不能用简单模型来描述它 , 而是需要复杂模型来解决 。 ”
张强锋继续提到 , “但如果人来设计复杂模型仍有许多局限 , 深度神经网络则是个非常好的能够去刻画复杂模型的途径 , 再加上测得的各个维度的大数据 , 就可以得到一个相对能够刻画复杂系统的模型 。 ”
不过 , 一切仍然处于早期研究阶段 。 “虽然大家已经有很多成功的例子 , 类似IBM超级‘医生’沃森 , 但实际上还有更多更复杂的问题 , 等着更复杂的模型去解决 。 ”
另外 , 张强锋认为人工智能也是未来高通量结构生物学的一个核心部分 , 而高通量的结构生物学则又可能会成为药物开发关键的一部分 。 目前可见的是 , 冷冻电镜已不再只活跃在基础研究的平台 , 也已经成为药物研发的一个重要手段 , 甚至被认为“可能会改变新药研发的模式” 。
“全国现在有几十台冷冻电镜 , 未来可能有几百几千台 , 那时候解析结构可能类似工厂运作 , 和现在完全不一样 。 如果我对一个药物可能的靶点蛋白感兴趣 , 我可能很快可以采集好样品数据 , 按照现在的方式可能需要几个星期甚至更长的时间才能最终搭建出三维结构 , 这显然无法满足前端源源不断的‘生产’ 。
而一旦团队开发的软件可以成功 , 我就不需要超级计算机、也不需要专家 , 我全部通过人工智能完成 。 ”张强锋认为 , 在他多项工作中 , 这部分研究可能将最快实现和实际应用的结合 。
“新的结构生物学”
张强锋目前实验室团队有接近20人 , 作为一个结构生物学、基因组学、机器学习和大数据分析等多学科交叉的实验室 , 团队成员背景多元 , 但做上述人工智能方向的只是一小部分 。
“实验室里做RNA结构的人最多 , 大概有一半左右 。 ”这部分工作是张强锋团队的另外一方面的主要工作 , 也是延续其在斯坦福大学医学院博士后期间的工作 。
在历史的很长一段时间里 , RNA都被认为只是在基因与蛋白质之间传递信息的分子 。 然而科学家们猜想 , RNA才是生命的起源分子 , 经过亿万年的演化 , 最终产生了DNA和蛋白分子 。 除了充当蛋白合成的信使(mRNA)外 , RNA还具有非常重要的调控功能 。
而RNA结构是转录后调控的基础 , 对于RNA的合成(即转录)、加工(包括剪切、修饰等)、转运、翻译和降解等过程都起着重要调控作用 。 “我们不是通过冷冻电镜 , 是通过测序得到结构信息 , 然后通过计算把它还原出来 。 这些基于高通量测序的技术 , 可以在一次实验中 , 解析所有RNA , 也就是转录组的结构 。 ”
推荐阅读
- 科学|“人造原子”工艺攻克难关,超大规模光子学芯片诞生
- 中年|清华大学:激光抛光对增材制造H11模具钢表面进行抛光
- 博科园|最新发现:银河系48%的氢原子核,被不明来源的能量剥离电子!
- 物理|最新研究成果:终于突破光学显微镜限制,看到晶体原子中的电子
- |npj:2D材料的综述—多尺度计算、洞见和生长
- 新冠首个新冠病毒刺突蛋白全原子开源模型问世
- 新冠病毒首个新冠病毒刺突蛋白全原子开源模型问世 有望促进新冠肺炎疗法的研发
- 冷原子我国在超冷原子量子计算与量子模拟领域获重大突破
- 博科园|一点儿也不慢,发现宇宙尺度上的行星,在眨眼之间就形成的证据!
- 量子计算理论|我国在超冷原子量子计算与量子模拟领域取得重要进展