腾讯优图实验室于2025年10月14日正式开源Youtu-Embedding通用文本表示模型,该模型专为企业级场景设计,旨在提升自然语言处理任务中的语义理解与检索精度。作为参数量达20亿的高性能语义嵌入模型,其首个版本已通过HuggingFace平台向工业界和学术界开放,提供完整的模型权重、推理代码及训练框架。
技术层面,Youtu-Embedding采用三阶段递进式训练范式:首先基于大语言模型(LLM)进行预训练,随后通过弱监督对齐优化语义空间映射,最终结合协同-判别式微调提升任务适配性。这种设计有效实现了大模型知识向嵌入任务的迁移,显著增强模型的判别力与泛化能力。在权威中文文本嵌入评测CMTEB中,该模型以77.46的综合得分(截至2025年9月)位列榜首,验证了其在语义表征领域的领先性。
应用场景方面,该模型支持文本检索、意图识别、语义相似度计算等六大核心NLP任务,尤其适用于构建检索增强生成(RAG)系统。相较于传统依赖关键词匹配的检索技术,Youtu-Embedding通过将文本映射至高维向量空间,实现基于语义关联的精准匹配。例如,在客服场景中可准确识别”汽车保险”与”车辆保障”的语义等价性,显著提升智能问答系统的响应质量。
为保障多任务学习效果,研发团队构建了统一微调框架,引入动态单任务采样机制缓解负迁移问题,并融合大模型生成数据与难负例挖掘技术优化训练样本质量。目前该框架已适配多种主流编码器结构,展现出良好的扩展性。企业用户可通过腾讯AI开放平台获取相关技术文档与接口支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。