Together.ai与Agentica联合发布开源AI Agent框架DeepSWE,基于Qwen3-32B模型构建 Together.ai与Agentica联合发布开源AI Agent框架DeepSWE,基于Qwen3-32B模型构建,采用强化学习技术训练,性能测试显示其在SWE-Bench-Verified基准测... AI产品动态# Agentica# AIAgent# DeepSWE 4个月前
前OpenAI高管Mira Murati创立的Thinking Machines Lab完成20亿美元融资,估值突破100亿 前OpenAI高管Mira Murati创立的Thinking Machines Lab完成20亿美元融资,估值突破100亿美元。TML凭借定制化AI模型技术和强化学习解决方案迅速崛起,成为AI领域最... AI新闻资讯# AI融资# MiraMurati# OpenAI 4个月前
小红书技术团队突破深度思考模型优化,提出’Think When You Need’新范式 小红书技术团队在深度思考模型领域取得重大突破,创新提出'Think When You Need'强化学习训练范式,显著缩短思考长度并保持性能。该研究揭示了反直觉的大模型思考特征,为AI认知优化提供新思... AI新闻资讯# AI技术# 人工智能# 小红书 5个月前
腾讯发布TiG框架:AI战略决策准确率提升超30%,《王者荣耀》实战验证 腾讯全新TiG框架在AI战略决策领域取得重大突破,基于《王者荣耀》实验平台,通过监督学习+强化学习两阶段训练,使Qwen系列模型决策准确率最高提升至90.91%,具备自然语言解释能力,技术可延伸至金融... AI新闻资讯# AI战略决策# GRPO# TiG框架 4周前
Meta突破性ExIt方法发布:单步训练实现LLM多步自我改进,性能提升22% Meta超级智能实验室最新ExIt方法实现大语言模型单步多步自我改进,性能提升22%,训练效率提高25%。了解突破性强化学习框架如何降低AI算力门槛,推动自动编程与实时应用商业化部署。 AI新闻资讯# AI商业化# AI训练技术# Meta研究院 2个月前
苹果发布RL4HS技术:强化学习精准定位大模型幻觉片段,AI可靠性迎突破 苹果发布RL4HS突破性AI技术,利用强化学习精准定位大模型幻觉片段,支持片段级错误检测。涵盖技术原理、实验数据及在医疗、法律等领域的应用价值,为LLM可靠性提供全新解决方案。 AI新闻资讯# AI技术# 人工智能可靠性# 大语言模型 3周前
苹果AI重大突破:RLCF方法重塑大模型训练,复杂指令执行能力提升达8.2% 苹果发布革命性RLCF人工智能训练方法,通过结构化清单反馈机制显著提升大模型复杂指令执行能力,在FollowBench等测试中实现最高8.2%性能优化。了解AI如何通过WildChecklists数据... AI新闻资讯# AI训练技术# RLCF# 人工智能 2个月前