强化学习

开源运动控制框架Tien Kung-Lab发布，推动人形机器人技术迈入新阶段

北京人形机器人创新中心发布Tien Kung-Lab开源运动控制框架，整合强化学习与人体运动数据，显著提升机器人运动控制的稳定性和泛化性，推动行业技术发展。

11个月前

腾讯发布TiG框架：AI战略决策准确率提升超30%，《王者荣耀》实战验证

腾讯全新TiG框架在AI战略决策领域取得重大突破，基于《王者荣耀》实验平台，通过监督学习+强化学习两阶段训练，使Qwen系列模型决策准确率最高提升至90.91%，具备自然语言解释能力，技术可延伸至金融...

AI新闻资讯 # AI战略决策 # GRPO # TiG框架

8个月前

AI2科学家揭秘强化学习与推理模型新突破，开源对标DeepSeek-R1

深度解读AI2科学家Nathan Lambert团队在强化学习与推理模型领域的最新研究成果，包括GRPO算法优化、OpenReasonerZero训练流程复现，以及打造开源推理模型对标DeepSeek...

AI新闻资讯 # AI竞赛 # DeepSeek # 人工智能

10个月前

苹果发布RL4HS技术：强化学习精准定位大模型幻觉片段，AI可靠性迎突破

苹果发布RL4HS突破性AI技术，利用强化学习精准定位大模型幻觉片段，支持片段级错误检测。涵盖技术原理、实验数据及在医疗、法律等领域的应用价值，为LLM可靠性提供全新解决方案。

AI新闻资讯 # AI技术 # 人工智能可靠性 # 大语言模型

8个月前

DeepSeek-R1登《自然》封面：全球首个获同行评审认证的开源大模型

DeepSeek-R1成为全球首个登上《自然》封面的主流大语言模型，通过纯强化学习框架降低算力消耗与数据依赖，技术细节经同行评审认证，推动AI研发开源化发展。

AI产品动态 # DeepSeek # 人工智能 # 大语言模型

8个月前

腾讯推出大模型训练库WeChat-YATT，多模态训练效率提升15%

腾讯推出大模型训练库WeChat-YATT，专注强化学习与多模态优化，支持中文语境预训练并降低15%硬件消耗。了解其分布式框架、云集成能力及在微信智能客服等场景的应用前景。

AI产品动态 # AI基础设施 # WeChat-YATT # 多模态AI

9个月前

昆仑万维开源多模态推理模型Skywork-R1V 3.0，实现跨模态推理突破

昆仑万维宣布开源多模态推理模型Skywork-R1V 3.0，该模型通过GRPO强化学习算法显著提升跨模态推理能力，在高考数学测试中表现优异，超越Claude、GPT等国际主流模型。

AI产品动态 # AI # 多模态推理 # 开源模型

11个月前

OpenAI发布ChatGPT Agent：AI技术迈向自主代理新时代

深度解析OpenAI最新发布的ChatGPT Agent技术：采用端到端强化学习实现自主工具组合，在多项基准测试中刷新纪录，将重塑人机协作模式并推动AI产业链发展。了解这一突破性AI技术的架构特点、性...

AI新闻资讯 # AI技术 # ChatGPTAgent # OpenAI

10个月前

清华大学联合团队突破搜索智能体训练瓶颈：自搜索强化学习（SSRL）实现高效Sim2Real迁移

清华大学与上海AI实验室联合发布自搜索强化学习（SSRL）技术，解决搜索智能体训练成本高与模拟环境差距问题，实现LLM知识高效提取与真实场景迁移，代码已开源。

AI新闻资讯 # Sim2Real # 人工智能 # 大语言模型

9个月前

Together.ai与Agentica联合发布开源AI Agent框架DeepSWE，基于Qwen3-32B模型构建

Together.ai与Agentica联合发布开源AI Agent框架DeepSWE，基于Qwen3-32B模型构建，采用强化学习技术训练，性能测试显示其在SWE-Bench-Verified基准测...

AI产品动态 # Agentica # AIAgent # DeepSWE

11个月前

开源运动控制框架Tien Kung-Lab发布，推动人形机器人技术迈入新阶段

腾讯发布TiG框架：AI战略决策准确率提升超30%，《王者荣耀》实战验证

AI2科学家揭秘强化学习与推理模型新突破，开源对标DeepSeek-R1

苹果发布RL4HS技术：强化学习精准定位大模型幻觉片段，AI可靠性迎突破

DeepSeek-R1登《自然》封面：全球首个获同行评审认证的开源大模型

腾讯推出大模型训练库WeChat-YATT，多模态训练效率提升15%

昆仑万维开源多模态推理模型Skywork-R1V 3.0，实现跨模态推理突破

OpenAI发布ChatGPT Agent：AI技术迈向自主代理新时代

清华大学联合团队突破搜索智能体训练瓶颈：自搜索强化学习（SSRL）实现高效Sim2Real迁移

Together.ai与Agentica联合发布开源AI Agent框架DeepSWE，基于Qwen3-32B模型构建

热门AI工具

最新资讯