韩国艳星 Meta 推出强化学习新框架 SWEET-RL, 让 AI 更懂东说念主类意图

Ady影院
你的位置:Ady影院 > 羽田爱吧 > 韩国艳星 Meta 推出强化学习新框架 SWEET-RL, 让 AI 更懂东说念主类意图
韩国艳星 Meta 推出强化学习新框架 SWEET-RL, 让 AI 更懂东说念主类意图
发布日期:2025-07-01 00:57    点击次数:199

韩国艳星 Meta 推出强化学习新框架 SWEET-RL, 让 AI 更懂东说念主类意图

IT之家3月24日音问,科技媒体marktechpost昨日(3月23日)发布博文韩国艳星,报说念称MetaAI公司联袂加州大学伯克利分校,合作推出名为SWEET-RL的强化学习框架,并发布了CollaborativeAgentBench(ColBench)基准测试。

这一转换旨在擢升谎话语模子(LLMs)在多轮东说念主机互助任务中的推崇,相等是在后端编程和前端联想限制。SWEET-RL通过逐轮优化有盘算,显耀提高了模子的任务完成率,并展示了其在开源模子(如Llama-3.1-8B)与独有模子(如GPT-4o)竞争中的后劲。

形状配景

IT之家征引博文先容,谎话语模子正逐渐演变为八成实行复杂任务的自主智能体,但在多轮有盘算任务中仍面对挑战。

传统考试圭表依赖于单轮响应或效法高概率四肢,无法灵验惩处长久依赖和积蓄主义。这导致模子在互助场景中推崇欠安,相等是在都集东说念主类意图和多圭表推理方面。

SWEET-RL的转换之处

全国约炮

SWEET-RL剿袭非对称的“演员-筹议家”结构,筹议家在考试经过中不错打听极端信息(如正确谜底),从而更精准地评估演员的有盘算。

该框架告成建模逐轮的上风函数,简化了信用分拨经过,并与LLMs的预考试架构更好地对都。本质效用泄露,SWEET-RL在后端编程任务中通过率擢升至48.0%,前端联想任务的余弦一样度达到76.9%,显耀优于其他多轮强化学习圭表。

ColBench基准测试

ColBench包含向上10000个考试任务和1000个测试案例,模拟真的的东说念主机互助场景。任务联想涵盖后端编程(如Python函数编写)和前端联想(如HTML代码生成),并限度每轮交互最多10次。

这一基准测试通过单位测试通过率(代码)和余弦一样度(联想)评估模子推崇韩国艳星,为多轮任务提供了可靠的评估标准。



Powered by Ady影院 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有