10月30日,北京智源人工智能研究院(BAAI)正式发布多模态世界大模型悟界·Emu3.5,标志着人工智能领域在多模态建模和世界模拟方面取得重大突破。该模型以34B参数量和超10万亿Token的训练规模,成为目前全球领先的开源多模态基座模型。
技术突破方面,Emu3.5采用自回归架构实现”Next-State Prediction”范式,通过790年等效时长的视频数据训练(较前代提升52倍),构建出具有物理规律认知能力的动态世界模型。其创新的离散扩散自适应技术(DiDA)将单图推理速度提升20倍,在保持生成质量的同时显著优化效率。测试数据显示,该模型在文本渲染、交错内容生成等任务上已超越谷歌Gemini-2.5-Flash-Image(Nano Banana)等主流闭源模型。
应用场景呈现三大革新性特征:一是支持第一人称视角的3D世界探索,可动态构建空间一致的连续场景;二是具备专业级图像编辑能力,如通过自然语言指令实现像素级修改;三是实现跨场景具身操作,能完成复杂动作规划和多模态交互。在官方演示中,模型成功展示了火星卡丁车驾驶、室内空间漫游等需要物理规律理解的沉浸式任务。
智源研究院院长王仲远表示,Emu3.5验证了多模态Scaling范式的可行性,为通用人工智能的发展提供了可量化的技术路径。该模型后续将通过开源方式向研究社区开放,其技术报告及项目主页已同步上线。行业观察人士指出,这种原生世界建模能力的突破,可能重塑AI视频生成、虚拟现实、机器人控制等领域的技术格局。
© 版权声明
文章版权归作者所有,未经允许请勿转载。