智源发布悟界·Emu3.5多模态世界大模型，34B参数实现物理规律认知突破

AI产品动态2个月前发布 AI视野

10月30日，北京智源人工智能研究院（BAAI）正式发布多模态世界大模型悟界·Emu3.5，标志着人工智能领域在多模态建模和世界模拟方面取得重大突破。该模型以34B参数量和超10万亿Token的训练规模，成为目前全球领先的开源多模态基座模型。

技术突破方面，Emu3.5采用自回归架构实现”Next-State Prediction”范式，通过790年等效时长的视频数据训练（较前代提升52倍），构建出具有物理规律认知能力的动态世界模型。其创新的离散扩散自适应技术（DiDA）将单图推理速度提升20倍，在保持生成质量的同时显著优化效率。测试数据显示，该模型在文本渲染、交错内容生成等任务上已超越谷歌Gemini-2.5-Flash-Image（Nano Banana）等主流闭源模型。

应用场景呈现三大革新性特征：一是支持第一人称视角的3D世界探索，可动态构建空间一致的连续场景；二是具备专业级图像编辑能力，如通过自然语言指令实现像素级修改；三是实现跨场景具身操作，能完成复杂动作规划和多模态交互。在官方演示中，模型成功展示了火星卡丁车驾驶、室内空间漫游等需要物理规律理解的沉浸式任务。

智源研究院院长王仲远表示，Emu3.5验证了多模态Scaling范式的可行性，为通用人工智能的发展提供了可量化的技术路径。该模型后续将通过开源方式向研究社区开放，其技术报告及项目主页已同步上线。行业观察人士指出，这种原生世界建模能力的突破，可能重塑AI视频生成、虚拟现实、机器人控制等领域的技术格局。

AI产品动态

文章版权归作者所有，未经允许请勿转载。

智源发布悟界·Emu3.5多模态世界大模型，34B参数实现物理规律认知突破

Character.AI全面禁止未成年人开放式对话，AI陪伴应用面临监管拐点

MiniMax发布新一代语音模型Speech 2.6：端到端延迟低于250毫秒，集成Fluent LoRA技术

相关文章

Salesforce推出AI平台Agentforce 360，预计可降低企业23%运营成本

Poe平台推出AI模型统一API，兼容OpenAI标准助力开发者高效集成

OpenAI Stargate项目获Blue Owl 30亿美元投资，新墨西哥州AI数据中心建设加速

IBM与Groq达成战略合作，通过Watson x Orchestrate提供高速AI推理服务

最新资讯

热门AI工具

热门资讯