近日,DeepSeek公司正式公开其大模型训练技术细节,将训练流程明确划分为预训练与优化训练两大核心环节。这一技术说明的发布,正值国内AI生成内容标识新规实施之际,引发行业广泛关注。
预训练阶段:构建通用语言能力的基础
预训练作为模型构建的初始阶段,其核心目标是通过海量数据使模型掌握语言的基本规律。DeepSeek采用Transformer架构,结合自注意力机制与稀疏化设计,处理包括网页文本、学术文献及开源代码在内的多源数据。技术文档显示,其最新V3版本模型参数规模达6850亿,其中370亿为活跃参数,其余采用混合专家(MoE)架构动态调用,显著降低计算成本。训练过程中,模型通过自监督学习完成掩码语言建模和自回归预测任务,单次训练周期耗电量优化至557.6万美元,较行业平均水平降低约30%。
优化训练阶段:从通用到专用的精准调校
预训练后的模型虽具备语言生成能力,但需通过优化训练适应具体场景。该阶段包含监督微调(SFT)和基于人类反馈的强化学习(RLHF)两大步骤:
1. 监督微调采用15万条人工标注的高质量指令数据,通过调整损失函数使模型输出更符合任务需求;
2. RLHF阶段引入人类对生成结果的排序机制,利用PPO算法优化模型策略,有效减少无效输出。值得注意的是,DeepSeek强调所有用户数据均经加密处理,并提供明确的隐私退出机制。
技术突破与行业影响
公开数据显示,经过两阶段训练的DeepSeek-V3在多项基准测试中表现突出:数学推理任务MATH-500准确率达97.3%,代码生成HumanEval评分92.7%。其采用的FP8混合精度与DualPipe并行算法,在保持性能的同时将推理能耗降低40%。业内专家指出,这种公开技术细节的做法,既符合监管要求,也为大模型研发提供了可参考的工程实践样本。
目前,DeepSeek技术已应用于科研辅助、智能编程等领域。公司表示将持续优化多模态融合与低成本微调技术,应对算力成本与数据偏见等行业共性挑战。
© 版权声明
文章版权归作者所有,未经允许请勿转载。