近日,我校生物医药学院林章凛教授和华南理工大学生物学院杨晓锋副教授领导的团队在人工智能的生物学应用方面取得重要进展,研究成果(即论文标题)“DeepMineLys: Deep mining of phage lysins from human microbiome“于2024年8月6日发表在国际知名学术期刊Cell子刊《Cell Reports》(影响因子:7.5)。华南理工大学生物科学与工程学院2018级博士生付一然为第一作者,论文通讯作者为广东工业大学林章凛教授和华南理工大学杨晓锋副教授。
研究成果简介如下:
研究团队介绍了一种新型的人工智能框架——DeepMineLys。作为概念验证,该研究使用了人类微生物宏基因组数据,从中识别和挖掘有治疗耐药菌潜力的溶菌酶,它标志着AI在生物学领域应用的一个重要突破。DeepMineLys的成功得益于构建了涵盖广泛噬菌体溶菌酶的全面训练数据集,集成了TAPE等先进算法和编码技术,采用了三层卷积神经网络和双轨架构等几个关键因素,极大地提升了模型的预测性能。在性能评估方面,研究团队使用了精确度、召回率和F1分数等多种指标,在独立数据集的验证中,DeepMineLys的F1分数达到84.00%,相比现有方法提升了20.84%。研究团队成功从三个不同的人类微生物宏基因组数据集中识别出一千多种新的溶菌酶(相似度小于60%)。研究团队从前100个候选溶菌酶随机选择了16个进行了实验验证,其中11个被证实具有活性,最强的一个溶菌酶的活性甚至比传统溶菌酶高出6.2倍,成为迄今为止在人类微生物组中发现的最有效的溶菌酶。DeepMineLys不仅能够挖掘溶菌酶,它具备蛋白质挖掘的广泛应用潜力,为未来的生物学研究提供了一个有力的工具。
同等重要的是,研究团队指出了AI用于生物学问题的若干限制和拟待解决的关键问题。第一,生物问题涉及的可能数据库要远大于物理问题的数据库。比如,人口目前的总数只有80亿左右,所以人脸识别是相对容易的;但单个蛋白质的三突变株数就高达千亿。第二,目前AI技术的验证基本局限于内推,而生物学问题更需要外推能力,因此使用独立数据集验证更显重要。第三,大部分AI的生物学研究目前缺乏实验验证。这些问题的解决,将极大推动AI在生物学领域的应用。
DeepMineLys的示意图
原文链接:https://www.cell.com/cell-reports/fulltext/S2211-1247(24)00912-4