近日,中国农业科学院农业基因组研究所农业基因编辑技术研发与应用创新团队构建了迄今为止规模最大的实验验证数据集,并在此基础上开发了多模态机器学习模型AlphaCD。该模型不仅能够高效预测超过2万种胞嘧啶脱氨酶的酶活特征,还能设计出新型高性能碱基编辑工具。该研究为蛋白质功能高通量鉴定和基因编辑工具开发提供了全新研究范式。相关研究成果发表在《细胞研究 (Cell Research) 》上。
胞嘧啶碱基编辑器(CBE)是一类能够将DNA中的C•G碱基对精准转换为T•A的基因编辑工具,广泛应用于疾病治疗和动植物育种研究。然而,与腺嘌呤碱基编辑器(ABE)相比,当前的胞嘧啶碱基编辑器普遍面临效率偏低和脱靶率较高的难题,这些问题严重制约了其在临床医学和农业领域的推广应用。
研究人员通过实验测试了1100种胞嘧啶的催化效率、脱靶效应等指标,建立了首个大规模功能数据库。结合序列、三维结构及理化性质等多维特征,团队开发出人工智能模型AlphaCD。经测试,该模型在预测胞嘧啶脱氨酶催化效率、脱靶活性、靶向窗口和基序偏好方面表现出高准确性。借助AlphaCD模型的高通量预测能力,科研人员能够在庞大的蛋白库中快速筛选出潜在的功能“王者”,这标志着基因编辑工具的发现过程正被彻底加速和重塑。
尽管当前人工智能大模型在工业领域算力支持下进展迅速,但其高昂的计算成本常使学术界难以承担。该研究创新性地采用高质量实验数据集,在个人计算机上采用随机森林算法训练轻量化模型,无需依赖昂贵超算资源,就能在预测精度上超越超大规模参数模型,并能将蛋白质功能预测从定性推至高精度定量新阶段。AlphaCD不仅是一款功能预测工具,更代表了蛋白质功能预测新研究范式的诞生。正如AlphaFold革命性推动结构生物学发展,AlphaCD也有望重塑基因编辑酶的研发模式,开启功能导向的蛋白质设计革新。
该研究得到了国家重点研发计划、国家自然科学基金等项目的支持。(通讯员 马昕怡)
原文链接:https://www.nature.com/articles/s41422-025-01164-x