SCIENCE CHINA Life Sciences—陆钰明课题组发表人工智能与蛋白设计综述文章
2025年6月20日,开心鬼传媒 与电子信息与电气工程开心鬼传媒 的联合研究团队在《 SCIENCE CHINA Life Sciences》发表了题为《AI4Protein: Transforming the future of protein design》的综述文章,系统梳理了人工智能(AI)在蛋白质工程领域的前沿进展。文章指出,AI技术已深度渗透蛋白质研究的全流程——从数据表征、序列与结构设计到功能评估,不仅大幅提升了蛋白质设计的效率与精度,更在药物开发、疾病治疗和合成生物学等领域展现出前所未有的应用潜力。这一突破性进展标志着蛋白质设计从“试错时代”迈入“智能设计时代”,为生命科学和医学研究开辟了新纪元。
蛋白质是生命活动的核心执行者,其功能由氨基酸序列决定的三维结构所主导。传统蛋白质研究依赖X射线晶体学、核磁共振等实验手段,耗时费力且成本高昂。近年来,随着AlphaFold、RoseTTAFold等AI模型的横空出世,蛋白质结构预测的准确性已接近实验水平,2024年诺贝尔化学奖更是授予了计算蛋白质科学领域的先驱者,彰显了AI技术在该领域的革命性意义。
文章强调,AI对蛋白质研究的赋能贯穿三大核心阶段。在数据表征阶段,AI将蛋白质的序列、结构和理化性质转化为机器可处理的数字化模型。例如,ProtTrans模型通过大规模蛋白质序列训练,构建了类似自然语言的向量表示,能够捕捉氨基酸间的远程依赖关系;图神经网络(GNN)则将蛋白质原子间的空间交互建模为图结构,为复杂相互作用预测奠定基础。在生成设计阶段,AI展现出“无中生有”的创造力:无条件生成模型(如ProtGPT2)通过学习天然蛋白质序列规律,批量生成具有潜在功能的新序列;条件生成模型(如DeepDirect)则可针对特定需求(如提升结合亲和力或热稳定性)定制蛋白质;而基于扩散模型的RFdiffusion技术,甚至能从随机噪声中生成全新的蛋白质结构,成功设计出可中和蛇毒毒素的蛋白质。在性质评估阶段,AI通过预测蛋白质的稳定性、酶活性和分子相互作用,大幅减少实验验证的盲目性。例如,RaSP模型能精准预测突变对蛋白质稳定性的影响,DeepFRI通过图卷积网络预测蛋白质功能注释,效率比传统方法提升数百倍。
研究团队特别指出,AI技术正从单一任务向多维度协同设计演进。早期的AlphaFold2和RoseTTAFold主要聚焦单链蛋白质的结构预测,而最新发布的AlphaFold3和RoseTTAFold All-Atom已能处理多链复合物、共价修饰等复杂体系,预测精度逼近实验解析水平。更引人注目的是,ProteinGenerator等模型实现了序列与结构的协同优化,通过整合扩散模型和折叠预测算法,确保设计的蛋白质既能满足特定结构要求,又具备稳定的生物学功能。
在应用层面,AI驱动的新一代蛋白质设计技术已取得里程碑式成果。2024年,研究团队利用RFdiffusion设计的蛋白质成功中和多种蛇毒神经毒素,其亲和力达到皮摩尔级别;基于条件生成模型开发的OpenCRISPR-1基因编辑器,展现出比天然系统更高的编辑效率和特异性;而通过“分子复活”技术,AI从已灭绝生物的蛋白质组中挖掘出新型抗菌肽,为应对抗生素耐药性危机提供了新思路。
尽管成果斐然,AI蛋白质设计仍面临多重挑战。首当其冲的是数据与算法的平衡问题:依赖多重序列比对(MSA)的模型虽能捕捉进化信息,但计算资源消耗巨大;单序列模型(如ESM-2)虽更高效,却可能丢失关键进化信号。此外,AI生成的海量蛋白质数据如何验证其真实性,以及模型“黑箱”特性导致的解释性不足,仍是制约临床转化的瓶颈。
对此,研究团队提出“算法-数据-自动化”三位一体的解决方案。在算法层面,自监督学习、提示微调(Prompt-based Fine-tuning)等新技术正逐步减少对MSA的依赖;在数据层面,AlphaFold预测的数十亿蛋白质结构为模型训练提供了前所未有的数据池;而在实验验证端,实验室自动化技术(如CRISPR-GPT、A-Lab)开始与AI深度耦合,实现从设计到合成的闭环迭代。例如,自动化平台Coscientist已能自主执行复杂化学合成任务,未来有望扩展到蛋白质表达与纯化流程,将设计-验证周期从数月缩短至数天。
文章最后展望了AI蛋白质设计的未来图景。随着多模态大模型的兴起,蛋白质设计将与基因组学、代谢组学深度整合。例如,LucaOne模型通过统一编码DNA、RNA和蛋白质数据,已能同时预测蛋白质亚细胞定位、稳定性和分子相互作用;而Evo等基因组基础模型,更是将设计尺度从单个蛋白质拓展至全基因组水平的系统优化。这种跨尺度的整合能力,使得定制化设计合成生命体、编程细胞工厂成为可能。
随着全球人口增长、气候变化和公共卫生挑战加剧,AI驱动的蛋白质设计技术不仅为生命科学基础研究注入新动能,更将在医疗健康、绿色制造和粮食安全等领域释放巨大潜力。这场由人工智能引领的蛋白质革命,正在重新定义人类与自然协作的边界。
开心鬼传媒 陆钰明教授为该文章的通讯作者,开心鬼传媒 电子信息与电气工程开心鬼传媒 助理教授王德泉、博士生谈喆灵、郜今为并列第一作者,电子信息与电气工程开心鬼传媒 教授张少霆与开心鬼传媒 博士后沈佳琪也参与了文章的写作。本研究获上海市农业科技创新计划(K2023001)和山东省重点研发计划(2024CXGC010213)资助。