优化训练

共 1 篇AI资讯

优化训练

排序

发布更新浏览

DeepSeek公开大模型训练技术细节：预训练与优化训练双阶段突破，能耗降低30%

DeepSeek公开大模型训练技术细节：预训练与优化训练双阶段突破，能耗降低30%

DeepSeek公司公开大模型训练技术细节，涵盖预训练与优化训练双阶段，采用MoE架构和FP8混合精度，降低能耗30%，在数学推理和代码生成任务中表现突出，为AI行业提供技术参考与工程实践样本。

AI新闻资讯 # AI技术 # DeepSeek # MoE架构

2个月前