谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

分类：网络资讯 - 时间：2024-02-13 - 浏览：次

大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习(RLHF 谷歌提出全新RLHF方法消除奖励模型，且无 )」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而，奖励模型的关键要素可能会产生一些不良影响。

来自卡内基梅隆大学（CMU）和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化(Self-Play Preference Optimization，SPO)。该方法消除了奖励模型，并且不需要对抗性训练。

SPO 方法主要包括两个方面。首先，该研究通过将 RLHF 构建为两者零和博弈（zero-sum game），真正消除了奖励模型，从而更有能力处理实践中经常出现的噪声、非马尔可夫偏好。其次，通过利用博弈的对称性，该研究证明可以简单地以自我博弈的方式训练单个智能体，从而消除了不稳定对抗训练的需要。

实际上，这相当于从智能体中采样多个轨迹，要求评估者或偏好模型比较每对轨迹，并将奖励设置为轨迹的获胜率。

相关标签：谷歌、全新、 RLHF方法：消除、奖励模型、对抗性训练、

本文地址：https://link.chaobie.com/article/323.html

相关内容

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

科技自立自强之院士说|AI为基础科研带来巨大推动力和全新机遇——访中国科学院院士田中群

科技自立自强之院士说|AI为基础科研带来巨大推动力和全新机遇——访中国科学院院士田中群-图为中国科学院院士、嘉庚创新实验室名誉主任田中群AIforScience引发科研新范式田中群表示，从基础科研的角度来看，机器学习为理论计算创造了可能，算法的精进，算力的提升，大大提高了计算效率。

科技自立自强之院士说｜汤超：加速科研进程AIforScience将开启全新科学时代

科技自立自强之院士说｜汤超：加速科研进程AIforScience将开启全新科学时代-汤超希望，未来AIforScience能够进一步带来新科学原理的发现，推动我们进入全新的科学时代。

全新葛兰素史克亮相进博会多方探索宫颈癌防治助力健康新未来

第五届中国国际进口博览会（简称

仪式感氛围感拉满的思皓曜不容小觑

可能很多人还没听过思皓这个品牌，这是2018年江淮和大众合资成立的全新品牌，也被视为大众的子品牌之一，所以思皓的出身是不低的，旗下车型...

四川欧拉生态创新中心揭牌打造四川计算产业全新生态

2022年11月8日，由成都超算中心运营管理有限公司、四川省振兴天府数字产业有限公司主办，华为技术有限公司、中科源码服务机器人研究院、统

随机推荐

自动化网上商城

自动化网上商城-专业PLC,变频器,触摸屏,手持表,传感器等自动化商品网上购物商城,在线实价下单,正品质量,阳光价格,网上支付,送货上门,货到付款,尽享自动化商品购物新体验

千库网

千库网是国内设计师喜欢的图片素材库，588ku.com为设计师提供各类好看免费的png图片和素材、背景图片、背景素材、海报背景、banner背景、边框花纹素材、艺术字、主图和直通车背景等，找素材就上千库网，百万精品图片等您下载！

塔里木大学

石雕牌坊麒麟貔貅石狮子

石牌坊雕刻和石雕牌坊价格，我们是山东石雕，嘉祥石雕敬业的石牌坊厂家，山东嘉祥长城雕刻有限公司，提供农村石牌坊制作样式和石牌坊价格以及石牌坊图片，石牌坊也叫石雕牌楼、产品有石栏杆和村庄石牌楼雕刻、石雕麒麟_石雕貔貅、石狮子,石牌坊厂家电话13791739397QQ451699675我厂其他作品有石雕狮子，九龙壁雕刻、照壁、石牌楼、华表、寺院石雕牌楼雕刻作品，园林雕刻，现代石雕等雕刻雕塑艺术作品。

会魔术

学魔术从这里开始，会魔术，更快乐！发布最新魔术教学，与魔友一起学习，交流，成长，创造奇迹，分享快乐。

小游戏,7k7k小游戏,小游戏大全,双人小游戏

7k7k小游戏大全包含洛克王国,赛尔号,7k7k洛克王国,连连看,连连看小游戏大全,美女小游戏,双人小游戏大全,在线小游戏,7k7k赛尔号,7k7k奥拉星,斗破苍穹2,7k7k奥比岛,7k7k弹弹堂,7k7k单人小游戏,奥比岛小游戏,7k7k功夫派,7k7k小花仙,功夫派等最新小游戏。

恣意游九州《完美国际2》新版本8月2日震撼上线

《完美国际2》新版本8月2日登场，新服“天下”同步开启。“御仙集”应约而来，奉上全新飞行器、坐骑和时装，勇士们可以在完美大陆中尽情展现自己的风采。

全国重点新闻网站

广西新闻网是由国务院新闻办批准、自治区党委宣传部主管、广西日报传媒集团主办的全国重点新闻网站，打造“新闻+党务+政务+服务”平台，旗下有红豆社区、广西网视、桂声智库、桂管家等品牌栏目内容，已成为了解广西社会经济发展成就的可靠窗口。

【杭州房产网】杭州房产信息网

杭州房产网频道为杭州网民提供真实的租房、二手房、合租、短租房、写字楼及厂房仓库等杭州房产信息，免费查询或发布杭州房产信息，就到58同城杭州房产网。