2025年9月28日,腾讯混元团队正式开源了全球首个工业级原生多模态生图模型“混元图像3.0”(HunyuanImage 3.0),其参数量高达800亿(80B),成为当前参数量最大的开源图像生成模型。该模型在多项基准测试中表现优异,效果可对标业界头部闭源模型。
混元图像3.0采用统一的自回归框架,实现了文本和图像模态的深度融合,具备基于世界知识推理的能力。与传统模型相比,该模型不仅能理解用户的描述,还能结合常识和专业知识生成更准确、更丰富的图像。其核心技术特性包括超长文本理解(支持1000+字符的复杂语义解析)、精确文字渲染(支持多语言文字混排)以及多样化艺术风格生成(涵盖摄影写实、插画设计、艺术创作和3D渲染等)。
模型架构方面,混元图像3.0创新性地将混合专家模型(MoE)与Transfusion方法相结合,包含64个专家模块,训练数据规模达50亿图文对和6万亿token。尽管完整模型权重文件大小达160GB,但通过优化设计,推理时仅需激活130亿参数,显著降低了计算资源需求。
目前,用户可通过腾讯混元官网体验该模型的文生图功能,模型权重和加速版本已在Github、Hugging Face等开源社区发布。腾讯表示,图生图、图像编辑和多轮交互等功能将在后续版本中陆续推出。此次开源将大幅降低企业和个人开发者使用先进AI生图技术的门槛,有望推动国内AI图像生成技术的普及和创新。
© 版权声明
文章版权归作者所有,未经允许请勿转载。