DeepSEA:新型AI模型精准识别抗菌耐药蛋白,准确率超98%

巴西圣保罗大学研究团队近日在《BMC Bioinformatics》发表新型深度学习模型DeepSEA,该模型通过卷积神经网络直接解析氨基酸序列特征,实现了对抗菌耐药蛋白的高精度识别与分类。研究显示,该模型在九类耐药蛋白检测中的召回率超过95%,显著优于传统同源比对方法。

研究团队采用NCRD95数据库作为核心训练集,整合了CARD、SARG等权威耐药基因资源,并通过95%相似度阈值控制数据冗余。非耐药样本则从SwissProt人工审校数据中筛选4600条细菌蛋白序列,经CD-HIT去重后确保类别平衡。这种数据构建策略有效避免了模型因样本偏差导致的误判风险。

在糖肽类耐药蛋白检测任务中,DeepSEA将误判率控制在8%以内,较RGI和AMRFinderPlus工具分别降低80%和71%的假阴性率。与ESM2等大型预训练模型相比,该模型在保持相当性能的同时,具备更精简的架构和更强的可解释性。对NDARO外部数据库的验证表明,模型对5959条耐药蛋白的分类准确率达98%,对233条无同源序列的未知蛋白仍保持82%的正确识别率。

研究团队通过t-SNE降维技术可视化模型内部表征,发现全局平均池化层能自发形成按功能类别聚簇的特征空间。这种可解释性不仅验证了模型学习到有效的生物学差异,还为发现新型耐药亚型提供了分析路径。该成果于2025年9月1日正式发表,为临床耐药基因检测提供了更高效的生物信息学工具。

© 版权声明

相关文章