腾讯混元大模型团队于8月12日正式发布多模态理解模型混元Large-Vision,该模型采用混合专家(MoE)架构,激活参数量达520亿,支持任意分辨率的图像、视频及3D空间数据输入,并在多语言场景理解能力上实现显著突破。此次发布标志着腾讯在跨模态技术领域的进一步深耕。
值得关注的是,混元Large-Vision的推出延续了腾讯在大模型开源领域的战略布局。此前该团队已陆续开源包括Hunyuan large(52B参数)和混合推理MoE模型Hunyuan-A13B在内的大语言模型,其创新架构与优异性能获得开源社区高度认可。多模态方面,腾讯通过开放完整的生成能力工具集及插件系统,已实现文生图、视频生成、3D生成等技术的开源,相关衍生模型数量累计达3000个。8月初发布的混元3D世界模型1.0更是在Hugging Face平台创下趋势榜第二、单周下载量近9000次的成绩。
腾讯方面强调,开源将持续作为混元大模型的核心发展战略。未来计划通过推出更多参数规模、支持更丰富模态的模型,加速技术产业化进程,与开发者共同构建大模型开源生态。此次发布的混元Large-Vision在多模态理解领域的突破,有望为智能内容创作、跨语言交互等场景提供更强大的底层技术支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。