DeepSeek公开大模型训练技术细节:预训练与优化训练双阶段突破,能耗降低30% DeepSeek公司公开大模型训练技术细节,涵盖预训练与优化训练双阶段,采用MoE架构和FP8混合精度,降低能耗30%,在数学推理和代码生成任务中表现突出,为AI行业提供技术参考与工程实践样本。 AI新闻资讯# AI技术# DeepSeek# MoE架构 2个月前
阿里发布Qwen3-Next高稀疏MoE模型:90%成本降低与10倍推理性能提升 阿里巴巴通义千问发布下一代Qwen3-Next高稀疏MoE架构,800亿参数模型训练成本降90%,推理吞吐量提升10倍,开源80B模型支持金融分析与供应链优化场景。 AI产品动态# MoE架构# 人工智能# 大模型 1个月前
阿里巴巴开源电影级视频生成模型通义万相Wan2.2,革新AI视频创作 阿里巴巴开源通义万相Wan2.2系列视频生成模型,采用混合专家(MoE)架构,显著提升视频生成效率和质量,支持文生视频、图生视频等多种功能,达到专业影视制作水准。开发者可通过GitHub、Huggin... AI产品动态# AI视频生成# MoE架构# 电影级视频 3个月前
蚂蚁百灵开源Ring-mini-2.0:轻量级AI推理模型,16B参数激活1.4B实现高效性能 蚂蚁百灵开源Ring-mini-2.0 AI推理模型,采用高效MoE设计,仅激活1.4B参数实现强大推理性能,支持128K长文本处理,吞吐量超500 token/s,助力企业降低AI应用成本。 AI产品动态# AI优化# AI开源# MoE架构 1个月前
李开复:DeepSeek开源模式是中国AI不落后美国的关键 零一万物CEO李开复深度解析DeepSeek开源策略如何推动中国AI发展。文章探讨开源生态构建的价值、560万美元低成本训练技术突破,以及开源模式对全球AI竞争格局的重塑影响。 AI新闻资讯# AI开源# DeepSeek# GPT-4o 3周前
蚂蚁集团开源全球首个万亿参数推理大模型Ring-1T-preview,多项测试超越GPT-5 蚂蚁集团开源全球首个万亿参数推理大模型Ring-1T-preview,在AIME、CodeForces等测试中超越GPT-5,采用MoE架构和自研强化学习系统,为中小企业提供零成本万亿级AI推理能力。 AI产品动态# MoE架构# Ring-1T# 人工智能 1周前