近年来,人工智能技术在基础科学研究领域展现出强大潜力,通过大数据分析和高精度模型预测,加速了物理、化学、生物等学科的研究进程,推动了一系列重大突破。我院交叉科学研究所李伟峰教授课题组将人工智能技术应用于生物大分子研究,取得了一系列原创性重要成果:
进展一、基于深度学习的酶动力学参数预测模型
酶作为高效的生物催化剂,在制药、化工、食品加工和生物燃料合成等领域具有广泛应用。然而,传统实验方法测量酶动力学参数(如酶周转数、米氏常数、催化效率)耗时且成本高,限制了大规模酶筛选和优化的进展。为此,李伟峰教授课题组设计了一种基于深度学习的创新性AI框架“CataPro”,通过结合蛋白质语言模型、化合物语言模型和分子指纹技术,显著提升了对酶-底物结合及催化机制的建模能力。该模型在多个关键指标上的预测精度均显著优于国际同类模型,为理解酶催化机制、加速新酶发现与改造提供了强有力的工具支持(图1)。
相关研究成果以“Robust enzyme discovery and engineering with deep learning using CataPro”为题发表在国际权威期刊《Nature Communications》上。本研究由物理学院作为第一完成单位,我院李伟峰教授、上海智峪生科郑良振博士和山东师范大学杨燕美教授为共同通讯作者,我院博士研究生王泽琛为第一作者。

图1 a-c展示了数据集构建流程和CataPro模型框架。d-f和g-i分别展示了CataPro(红色)与其它特征表示方法及基线模型在kcat和Km无偏数据集上实现的皮尔森相关系数(PCC)、斯皮尔曼相关系数(SCC)和均方根误差(RMSE)
进展二、基于机器语言的药物分子多类、多属性预测模型
在新药研发中,药物分子的物化属性是评估其成药性的重要指标,但传统的预测方法受限于单一属性建模,难以满足多维度评价需求。李伟峰教授课题组与新加坡南洋理工大学团队合作,创新性地开发了一种基于图卷积变分自动编码器(VGEA)的机器语言模型,通过结合图卷积神经网络和变分推断算法,从分子拓扑结构中提取深层次特征,并利用自动编码器实现数据处理与传递。该模型在保持生成均匀分布潜在结构空间的同时,能够精准推测分子描述符(如Morgan4和MACCS指纹),实现了药物分子多类、多属性问题的同步预测。这一研究成果不仅突破了传统“单模型-单任务”方法的局限,还通过多任务学习机制实现了对药物多维属性的端到端预测。精度上较国际主流模型提升30%,计算效率提高两个数量级,为大规模药物筛选提供了强有力工具(图2)。
相关论文以“Application of variational graph encoders as an effective generalist algorithm in computer-aided drug design”为题发表于人工智能国际顶级期刊《Nature Machine Intelligence》。李伟峰教授与慕宇光教授(山东大学兼职特聘教授)为共同通讯作者。

图2 图卷积变分算法对化学分子建模的数据流程。
李伟峰课题组自2020年开始对“AI+物理+生物医药”的交叉学科研究进行布局,致力于将物理思想与人工智能算法结合,解决生物物理医学等领域的前沿问题,取得了一系列原创性成果,相关论文链接如下:
基于深度学习的酶动力学参数预测模型
https://www.nature.com/articles/s41467-025-58038-4
基于机器语言的药物分子多类、多属性预测模型
https://www.nature.com/articles/s42256-023-00683-9
基于深度学习的中枢神经甘氨酸受体抑制剂筛选研究
https://www.nature.com/articles/s41401-025-01513-x
基于深度学习的药物-受体复合结构和亲和能预测模型
https://academic.oup.com/bib/article/25/3/bbae145/7641193
基于全微分神经网络的配体结构优化模型
https://academic.oup.com/bib/article/24/1/bbac520/6887112
配体结构优化的统计势算法
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00669
深度学习方法优化配体结构的鲁棒性研究
https://pubs.acs.org/doi/10.1021/acs.jcim.4c01096
撰稿: 王泽琛、王志豪