蚂蚁数科近日在香港金融科技节上发布了一项名为“多语种多模态大模型训练框架”的创新技术,旨在解决传统大模型在小语种环境中的表现瓶颈。该框架通过创新的语言感知优化机制,显著提升了模型对资源稀缺语言的深度理解能力,尤其在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等小语种任务中表现突出。
技术突破方面,该框架采用“以目标语言进行思考”的核心机制,结合细粒度多维度奖励策略与自动化数据解决方案,在主流多语言视觉问答(VQA)基准测试中实现了约9.5%的准确率提升。测试数据显示,其综合性能超越同等规模开源模型,并在部分任务中优于GPT-4o、Gemini-2.5-flash等国际主流闭源模型,评测总分位列第一。
同步发布的图像安全框架融合了视觉分析与常识推理技术,可识别图像边缘、光照等视觉不一致线索,同时基于商业逻辑检测矛盾实体(如虚构的“KFC BANK”)。通过深度思考模型与强化学习技术,该框架能实现端到端的篡改区域定位与可解释分析,有效提升数字内容风控水平。
目前,这两项技术已集成至ZOLOZ文档识别鉴真产品RealDoc,支持119种语言的商务文档、合同与证件处理,覆盖保险理赔、信贷审核及跨境贸易等场景。蚂蚁数科表示,未来将进一步拓展该技术在智能客服、数字政务等领域的应用,推动AI服务的全球化普惠发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。