全球首个视频转网页评测基准IWR-Bench发布,GPT-5综合得分仅36.35分暴露AI交互逻辑短板 上海AI实验室与浙江大学发布全球首个视频转网页评测基准IWR-Bench,系统性评估28款主流AI模型动态网页生成能力。研究显示GPT-5交互功能得分仅24.39%,深度解析五大技术瓶颈与行业应用前景... AI新闻资讯# 人工智能# 人机交互# 前端开发 1个月前
NewtonBench:港科大与英伟达推出AI科学发现评估新基准,模拟平行宇宙测试大模型推理能力 香港科技大学与英伟达联合研发的NewtonBench基准测试,通过模拟平行宇宙环境动态调整物理参数,系统性评估大语言模型的科学发现能力,解决训练数据泄漏问题,为下一代AI科研系统开发提供新范式。 AI新闻资讯# AI科学发现# NewtonBench# 基准测试 2个月前
英特尔发布Crescent Island数据中心GPU 强化AI推理市场竞争力 英特尔正式发布代号Crescent Island的新一代数据中心GPU,配备160GB内存,基于Xe3P架构专攻AI推理市场。产品针对大语言模型优化,支持风冷服务器,预计2026年交付样品,剑指英伟达... AI产品动态# AI推理# Xe3P架构# 人工智能硬件 2个月前
苹果发布RL4HS技术:强化学习精准定位大模型幻觉片段,AI可靠性迎突破 苹果发布RL4HS突破性AI技术,利用强化学习精准定位大模型幻觉片段,支持片段级错误检测。涵盖技术原理、实验数据及在医疗、法律等领域的应用价值,为LLM可靠性提供全新解决方案。 AI新闻资讯# AI技术# 人工智能可靠性# 大语言模型 2个月前
OpenAI前科学家发布nanochat开源项目:8000行代码实现全栈LLM训练,100美元复现ChatGPT级模型 OpenAI前科学家Andrej Karpathy发布nanochat开源项目,通过8000行代码实现大语言模型全栈训练与推理,仅需100美元成本即可复现ChatGPT级模型。了解如何用极简代码降低A... AI产品动态# AI开发# AndrejKarpathy# ChatGPT复现 2个月前
斯坦福联合团队发布ACE技术:动态优化上下文输入,大模型性能提升17.1% 斯坦福大学联合团队发布革命性ACE技术,通过动态优化上下文输入实现大语言模型性能显著提升,在AppWorld基准上性能提升17.1%,金融推理准确率提高8.6%,适应延迟降低86.9%,为企业AI部署... AI新闻资讯# ACE技术# AI研究# 上下文优化 2个月前
GPT-5 Pro权限全面开放!Perplexity向Max用户推出AI浏览器Comet免费服务 Perplexity公司正式向Max用户开放GPT-5 Pro权限,AI浏览器Comet全球免费使用。GPT-5模型上下文处理达40万词元,输出token减少50%-80%,在编程辅助、视觉推理等领域... AI产品动态# AI浏览器# Comet# GPT-5Pro 2个月前
苹果内部测试Veritas AI助手,为Siri重大升级铺路 苹果内部正在测试代号Veritas的AI助手,采用自研大模型+第三方技术双轨策略,支持长上下文对话与屏幕内容响应。本文详解Siri明年3月重大升级的核心功能及对AI竞争格局的影响。 AI新闻资讯# AI竞争# ChatGPT# Siri升级 2个月前
谷歌AI新框架颠覆科研模式:先打草稿后修正,数小时完成数月工作 谷歌最新AI框架采用先打草稿后迭代的创新方法,通过实时整合arXiv等平台论文,将科研流程压缩至数小时,在单细胞数据分析等任务中准确率提升14%,现已开源供学术界验证使用。 AI新闻资讯# 人工智能框架# 动态知识管道# 大语言模型 2个月前
美团发布LongCat-Flash-Thinking大模型:国内首款双轨推理AI,数学代码能力全面升级 美团发布国内首款兼具深度思考与工具调用的双轨推理大模型LongCat-Flash-Thinking。详解其领域并行强化学习架构、万卡集群DORA系统性能,以及在ARC-AGI基准测试中超越国际闭源模型... AI产品动态# AI推理模型# LongCat-Flash-Thinking# 代码生成 2个月前