百度推出多模态数字人互动直播间文心4.5T技术实现声音形象协调

AI产品动态10个月前发布 AI视野

6月17日，百度在“AI Day”开放日上正式发布业界首个双数字人互动直播间，标志着多模态数字人技术进入商业化应用新阶段。该技术基于文心大模型4.5T驱动，实现了语言、声音、形象的深度协同，为电商、教育、娱乐等领域提供高拟真、低成本的数字内容解决方案。

技术核心：文心4.5T的多模态协同优化
文心大模型4.5T作为百度新一代原生多模态模型，在理解、生成、逻辑推理及跨模态迁移能力上显著升级。其通过多模态联合建模统一处理文本、图像、音频等数据，推理速度较前代提升30%，训练成本降低80%，同时API调用价格仅为国际同类产品的1%。此外，自反馈增强技术框架的引入有效减少模型幻觉，提升复杂任务处理精度。

直播生态革新：从单人到双人互动
百度此次推出的双数字人直播间突破了传统虚拟主播的单向输出模式。以罗永浩数字人为例，其与搭档朱萧木的数字人配合实现了动态对话、实时互动及个性化“玩梗”，直播首秀观看量超1300万人次，GMV突破5500万元。技术层面，百度通过对话上下文编码器解决双人语音合成难题，并结合多模态视频生成技术，确保动作、表情与话术的高度一致。

行业影响：降本增效与沉浸体验并重
百度集团副总裁吴甜指出，该技术通过剧本生成、多模驱动和动态交互三大模块，实现数字人“神、形、音、容、话”的统一。例如，罗永浩数字人的直播剧本基于其个人风格定制，兼具幽默性与专业性。这一创新不仅降低真人直播的人力与时间成本，还通过AI实时控场、多智能体调度等功能，复刻真人直播的抽奖、发福袋等互动玩法，显著提升用户转化率。

目前，百度已将多模态数字人技术整合至电商平台“慧播星”，未来计划拓展至教育、客服等更多场景。业内分析认为，此举或重塑内容创作生态，推动AI数字人从工具向“超拟真伙伴”演进。

文章版权归作者所有，未经允许请勿转载。

百度推出多模态数字人互动直播间文心4.5T技术实现声音形象协调

阿里巴巴开源32款Qwen3系列MLX模型，全面适配苹果设备生态

腾讯元宝AI编程模式上线：双栏实时交互，多语言零配置运行

相关文章

Meta加速开发Llama 4.X AI模型，2025年底前推出增强版应对竞争

ChatGPT集成Instacart购物功能，AI智能体开启杂货电商新纪元

猿辅导推出国内首个教师专用AI工具“飞象老师”，免费开放助力智慧课堂

港科大突破！宇树G1篮球机器人实现全球首个真实场景三步上篮

最新资讯

热门AI工具

热门资讯

百度推出多模态数字人互动直播间 文心4.5T技术实现声音形象协调

阿里巴巴开源32款Qwen3系列MLX模型，全面适配苹果设备生态

腾讯元宝AI编程模式上线：双栏实时交互，多语言零配置运行

相关文章

Meta加速开发Llama 4.X AI模型，2025年底前推出增强版应对竞争

ChatGPT集成Instacart购物功能，AI智能体开启杂货电商新纪元

猿辅导推出国内首个教师专用AI工具“飞象老师”，免费开放助力智慧课堂

港科大突破！宇树G1篮球机器人实现全球首个真实场景三步上篮

最新资讯

热门AI工具

热门资讯

百度推出多模态数字人互动直播间文心4.5T技术实现声音形象协调