英伟达发布Jet-Nemotron小型语言模型,全华人团队打造性能效率双突破 英伟达Jet-Nemotron系列小型语言模型由全华人团队开发,凭借PostNAS和JetBlock技术实现性能与效率双重突破,在推理任务中超越Qwen3、Gemma3等模型,吞吐量提升53.6倍,适... AI产品动态# AI推理# Jet-Nemotron# JetBlock 4个月前
华为开源轻量级大模型openPangu-Embedded-7B-v1.1,实现快慢思维自由切换突破 华为开源轻量级大模型openPangu-Embedded-7B-v1.1,实现动态快慢思维模式切换,提升推理效率50%,适用于工业物联网和移动终端。了解技术突破与应用前景。 AI产品动态# AI推理# openPangu-Embedded# 华为 3个月前
华为与中国银联联合发布AI推理突破性技术,降低HBM依赖并提升性能 华为与中国银联联合发布AI推理突破性技术,减少对HBM的依赖并提升性能,推动金融行业实时风险评估、智能投顾等场景应用,助力中国自主AI生态发展。 AI新闻资讯# AI推理# HBM# 中国银联 4个月前
华为发布UCM推理加速技术,助力金融AI应用效率提升 华为发布UCM推理记忆数据管理器技术,通过分级管理KV Cache记忆数据,显著提升AI推理效率并降低成本。中国银联已试点该技术,联合华为发布智慧金融AI推理加速方案。了解UCM技术如何推动金融AI应... AI新闻资讯# AI推理# UCM技术# 华为 4个月前
谷歌推出Gemini 2.5 Deep Think模型,AI推理能力再升级 谷歌推出Gemini 2.5 Deep Think模型,性能超越OpenAI和xAI竞品,现已面向Ultra用户开放。了解这款基于多假设推理的AI模型如何提升复杂问题解决能力。 AI产品动态# AI推理# AI模型# Gemini2.5DeepThink 5个月前
EXO Labs分布式推理技术突破:异构设备协同实现AI大语言模型性能提升2.8倍 EXO Labs最新研究成果展示:通过智能协同苹果M3 Ultra与英伟达DGX Spark设备,在AI大语言模型推理中实现2.8倍性能提升。详解分布式推理架构如何通过KV缓存数据传输突破硬件瓶颈,为... AI新闻资讯# AI推理# EXOLabs# MetaLlama-3.1 2个月前
华为开源UCM推理记忆数据管理技术,AI推理性能大幅提升 华为开源UCM推理记忆数据管理技术,通过稀疏化模块和KV Cache优化,实现首Token时延降低90%、吞吐量提升22倍,推动AI推理高效低成本发展。 AI新闻资讯# AI推理# KVCache# ModelEngine 2个月前
Akamai联手英伟达推出边缘AI推理平台,响应速度提升10倍 Akamai与英伟达联合推出AI推理边缘云平台,整合RTX PRO 6000 Blackwell GPU和全球4200个边缘节点,实现AI推理响应速度提升6-10倍,企业算力成本降低45%,推动自动驾... AI产品动态# AI推理# Akamai# BlackwellGPU 2个月前
面壁智能发布MiniCPM 4.1基座模型:稀疏架构突破AI推理效率瓶颈 面壁智能MiniCPM 4.1基座模型采用稀疏化架构,实现8B参数高效推理,兼容Ollama/vLLM等框架,准确率提升18%,显存占用降30%,推动AI终端部署与算力优化解决方案。 AI产品动态# AI推理# MiniCPM# 大模型优化 3个月前
微软Azure与英伟达Blackwell Ultra GPU实现每秒110万token AI推理新纪录 微软Azure与英伟达合作推出基于Blackwell Ultra GPU的虚拟机,在Llama2 70B模型上实现每秒110万token推理速度,性能提升27%,能效优化2.5倍,为企业级AI部署设立... AI产品动态# AI推理# BlackwellUltra# Llama2 2个月前