阿里Qwen3-Omni-Flash-2025-12-01发布:原生全模态大模型实现音视频实时流式输出,支持个性化AI人设定制

阿里Qwen团队于2025年12月9日正式发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01,该模型在Qwen3-Omni基础上实现全面技术升级,标志着多模态交互技术进入新阶段。作为原生全模态架构的突破性成果,该模型支持文本、图像、音频和视频的无缝输入与实时流式输出,显著提升了人机交互的自然度和流畅性。

技术层面,新模型采用原生统一编码器架构,通过”音视频帧-文本token”对齐机制实现多模态特征的底层融合。其中音频处理精度达每秒240特征帧,视频解析能力支持60帧/秒的实时分析,确保动作识别与场景理解的精准性。韵律预测网络的引入使语音合成能根据语义自动调节语速、停顿及语调,其拟人化水平经测试已接近真人发声效果。

系统提示(System Prompt)控制能力的开放成为本次升级的核心亮点。用户可通过参数化设置自定义AI行为模式,包括设定”甜妹”、”御姐”等特定人设风格,调整口语化表达偏好及回复长度。这项创新为虚拟主播智能客服等场景提供了高度灵活的个性化交互解决方案。

性能指标显示,模型在ZebraLogic逻辑推理任务中得分提升5.6,LiveCodeBench-v6代码生成提升9.3,MMMU多学科视觉问答提升4.7。多语言支持方面覆盖119种文本语言、19种语音识别语言及10种语音合成语言,有效支持全球化应用场景。

针对行业长期存在的口语交互”降智”问题,研发团队重点优化了音视频指令理解能力。实测表明,新模型在多轮对话中表现出优异的意图捕捉能力和语义连贯性,彻底解决了传统语音交互中存在的机械拖沓现象。这一突破性进展为教育辅导、智能助手等应用场景提供了更可靠的技术支撑。

© 版权声明

相关文章