MoE架构

DeepSeek公司公开大模型训练技术细节，涵盖预训练与优化训练双阶段，采用MoE架构和FP8混合精度，降低能耗30%，在数学推理和代码生成任务中表现突出，为AI行业提供技术参考与工程实践样本。

2个月前

阿里巴巴通义千问发布下一代Qwen3-Next高稀疏MoE架构，800亿参数模型训练成本降90%，推理吞吐量提升10倍，开源80B模型支持金融分析与供应链优化场景。

1个月前

阿里巴巴开源通义万相Wan2.2系列视频生成模型，采用混合专家（MoE）架构，显著提升视频生成效率和质量，支持文生视频、图生视频等多种功能，达到专业影视制作水准。开发者可通过GitHub、Huggin...

3个月前

蚂蚁百灵开源Ring-mini-2.0 AI推理模型，采用高效MoE设计，仅激活1.4B参数实现强大推理性能，支持128K长文本处理，吞吐量超500 token/s，助力企业降低AI应用成本。

1个月前

零一万物CEO李开复深度解析DeepSeek开源策略如何推动中国AI发展。文章探讨开源生态构建的价值、560万美元低成本训练技术突破，以及开源模式对全球AI竞争格局的重塑影响。

3周前

蚂蚁集团开源全球首个万亿参数推理大模型Ring-1T-preview，在AIME、CodeForces等测试中超越GPT-5，采用MoE架构和自研强化学习系统，为中小企业提供零成本万亿级AI推理能力。

1周前