阿里Qwen3-Omni-Flash-2025-12-01发布：原生全模态大模型实现音视频实时流式输出，支持个性化AI人设定制

AI产品动态2个月前发布 AI视野

阿里Qwen团队于2025年12月9日正式发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01，该模型在Qwen3-Omni基础上实现全面技术升级，标志着多模态交互技术进入新阶段。作为原生全模态架构的突破性成果，该模型支持文本、图像、音频和视频的无缝输入与实时流式输出，显著提升了人机交互的自然度和流畅性。

技术层面，新模型采用原生统一编码器架构，通过”音视频帧-文本token”对齐机制实现多模态特征的底层融合。其中音频处理精度达每秒240特征帧，视频解析能力支持60帧/秒的实时分析，确保动作识别与场景理解的精准性。韵律预测网络的引入使语音合成能根据语义自动调节语速、停顿及语调，其拟人化水平经测试已接近真人发声效果。

系统提示（System Prompt）控制能力的开放成为本次升级的核心亮点。用户可通过参数化设置自定义AI行为模式，包括设定”甜妹”、”御姐”等特定人设风格，调整口语化表达偏好及回复长度。这项创新为虚拟主播、智能客服等场景提供了高度灵活的个性化交互解决方案。

性能指标显示，模型在ZebraLogic逻辑推理任务中得分提升5.6，LiveCodeBench-v6代码生成提升9.3，MMMU多学科视觉问答提升4.7。多语言支持方面覆盖119种文本语言、19种语音识别语言及10种语音合成语言，有效支持全球化应用场景。

针对行业长期存在的口语交互”降智”问题，研发团队重点优化了音视频指令理解能力。实测表明，新模型在多轮对话中表现出优异的意图捕捉能力和语义连贯性，彻底解决了传统语音交互中存在的机械拖沓现象。这一突破性进展为教育辅导、智能助手等应用场景提供了更可靠的技术支撑。

文章版权归作者所有，未经允许请勿转载。

阿里Qwen3-Omni-Flash-2025-12-01发布：原生全模态大模型实现音视频实时流式输出，支持个性化AI人设定制

苹果Apple Glasses智能眼镜预计2026年发布：无屏AI驱动，定位iPhone延伸配件

腾讯QQ双模式回归与AI群聊总结功能上线，经典怀旧与智能效率并行升级

相关文章

美团发布LongCat-Flash-Thinking大模型：国内首款双轨推理AI，数学代码能力全面升级

高德地图推出全国首个道路车位实时感知功能“AI停车雷达”，破解城市停车难题

谷歌Gemini将全面取代Android设备上的Google Assistant，2025年7月7日正式上线

百度智能云曦灵手语数字人获联合国AI向善杰出案例奖，助力全球听障群体信息无障碍

最新资讯

热门AI工具

热门资讯