英国人工智能公司InstaDeep近日在《Nature Machine Intelligence》发表研究论文,正式推出多模态对话智能体Chat Nucleotide Transformer(ChatNT)。该模型通过自然语言交互即可处理DNA、RNA和蛋白质序列,显著降低了生物学家使用AI工具的技术门槛,被学界视为生物信息学领域的突破性进展。
技术核心:跨模态理解与任务泛化能力
ChatNT整合了预训练的DNA编码器、投影层和英语解码器,通过统一框架实现对生物序列的高级语义解析。其创新性体现在两方面:
1. 多任务泛化:仅需一次性英文指令即可完成序列特征提取、跨物种调控元件分析等多样化任务,性能与专用模型相当;
2. 模态扩展性:架构支持未来整合蛋白质编码器(如ESM2),为处理结构生物学数据预留接口。
应用场景与行业影响
研究团队已验证ChatNT在基因变异影响评估、组织特异性表达分析等场景的实用性。该技术有望解决传统生物学研究的痛点:
– 降低技术壁垒:无需编程即可调用复杂模型,避免学习R、Python等语言的成本;
– 提升研究效率:通过对话快速整合多模态数据(如基因组、转录组),加速假设验证周期。
行业背景与挑战
尽管生物医学对话模型(如BioGPT)近年涌现,但跨模态数据处理仍是技术难点。ChatNT的突破在于将自然语言理解与生物序列语义对齐,但其临床转化仍需解决数据异构性、监管合规等问题。
InstaDeep表示,ChatNT已开放模型权重(Hugging Face平台),后续将探索其在个性化医疗中的潜力。这一进展或推动AI制药赛道竞争升级,此前谷歌、英伟达等企业已加速布局多模态生物智能体领域。
© 版权声明
文章版权归作者所有,未经允许请勿转载。