腾讯混元发布新一代图像生成模型HunyuanImage 2.1,支持2K高清与多语言生成

腾讯混元于9月9日晚间正式发布新一代图像生成模型“混元图像2.1”(HunyuanImage 2.1),该模型在分辨率、文本理解及多语言支持方面实现显著突破。作为开源项目,其核心代码及模型权重已同步上线Hugging Face和GitHub平台,支持开发者与创作者直接调用。

技术特性方面,混元图像2.1具备以下核心能力:
1. 原生2K高清生成:支持1:1至16:9等五种比例图像输出,单次最多生成4张高精度图片,尤其适用于商业海报、产品包装等需印刷级精度的场景。
2. 超长复杂提示词解析:可处理长达1000个token的细节描述,实现多主体分镜控制。例如,用户输入包含变色龙四格漫画的完整分镜脚本时,模型能精准还原颜色渐变、动态表情等微观细节。
3. 跨语言文字嵌入:中英文混合文本可无缝融入图像,且字体、排版与场景自然融合。测试案例显示,包含“读书行路・见世界”与英文标语的双语书店招牌生成效果接近人工设计水准。

配套工具创新
同步开源的PromptEnhancer文本改写模型解决了AI生图中“提示词表达模糊”的痛点。该模型能自动优化用户指令,例如将简短的“画一只猫”扩展为包含场景、风格、色彩的完整描述,并支持中英文语义互译。

行业影响
该模型已应用于插画创作、电商设计等领域。据实测,传统需数小时的手绘漫画分镜,现通过文本描述可在数分钟内完成。腾讯透露,原生多模态图像生成模型已进入研发阶段,未来将进一步提升跨模态生成能力。

用户可通过腾讯混元官网在线体验,或下载开源模型本地部署。此次升级标志着国产AI图像生成工具在精细化、专业化方向迈出关键一步。

© 版权声明

相关文章