奖励模型（Reward Model）中的尺度扩展规律（Scaling Laws），也即是通过扩展奖励模型的模型大小、数据量等去提升奖励模型的能力...

FesianXu 20250131 at Wechat Search Team

前言

最近在考古一些LLM的经典老论文，其中有一篇是OpenAI于ICML 2023年发表的文章，讨论了在奖励模型（Reward Model）中的尺度扩展规律（Scaling Laws），也即是通过扩展奖励模型的模型大小、数据量等去提升奖励模型的能力，本文进行论文的读后笔记。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注明出处，谢谢。

关键字：奖励模型、尺度扩展规律、奖励模型过优化、奖励劫持
发表信息：ICML 2023

联系方式：

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

微信公众号：机器学习杂货铺3号店

奖励劫持问题

在大语言模型（Large Language Model, LLM）中，存在所谓的尺度扩展规律（Scaling Laws） [2]，如Fig 1所示，即是：

LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加

Fig 1. 大模型中的尺度扩展规律，测试集损失随着模型训练量、训练集数据量、模型参数量的增加而递减（即是模型性能递增）。

众所周知，奖励模型（Reward Model，RM）是LLM的训练管道 ¹ 中一个重要部件，其可对LLM的输出进行偏好打分（Preference Score），也可以视为是对LLM的输出进行质量打分。然而奖励模型会遇到所谓奖励劫持（Reward Hacking）的问题，即是奖励模型被样本的其他无关/弱相关特征所劫持，其打分不能再正确建模LLM的输出质量，最常见的就是奖励模型容易认为LLM输出越长质量就越高（被称之为长度偏置，通常来自于奖励模型的训练数据中，逻辑性越好、解释越完整的样本，其长度倾向于越长；但是反之不成立，长度越长的样本不一定是质量越好的）。奖励劫持将会使得奖励模型无法持续从LLM的输出采样中挑选更好的样本，从而影响LLM的进一步优化。

从结果上看，导致奖励劫持的原因是对奖励模型的过度优化（Overoptimization），即优化奖励模型的值过高时，反而会阻碍真实目标的性能提升。此处有一个术语描述这个现象，称之为古德哈特现象（Goodhart's Law），他是一个在经济学、社会学、管理学以及人工智能等领域广泛讨论的现象，它描述了当一个指标被用作目标进行优化时，该指标的有效性可能会因为过度优化而降低，甚至导致与原始目标背离的情况。（原文：When a measure becomes a target, it ceases to be a good measure.）

对其的改进方向是多样的，比如训练数据的多样性、奖励模型的参数量、奖励模型的训练量等，在这篇论文中，作者正是去研究奖励模型的尺度扩展规律，以及不同实验设置下对缓解奖励模型过度优化的帮助。

尺度扩展包含了训练数据量、模型参数量、模型训练量三个维度，后两者可以自然扩展，但是奖励模型的训练数据来自于人类标注，扩展训练数据将会带来巨大的标注代价，因此本文作者采用生成数据作为代理奖励模型的训练数据。整个流程如Fig 2.所示，常规的代理奖励模型（Proxy Reward Model） ² 是由人类标注员标注的偏好数据进行训练的，而本文采用的方法则是：

首先采用人类标注数据，训练一个6B大小的奖励模型，这个模型被称之为『标准奖励模型（Gold Reward Model）』，后面的所有实验中，都会认为标准奖励模型的打分是真实值 ³，文章中称之为『标准奖励打分（gold reward model score）』，这用来评估不同实验设置下的代理奖励模型的效果。
将标准奖励模型对一批无标注的数据进行打标，然后用打标后的数据进行代理奖励模型的训练，代理奖励模型的参数量从3M到3B。在本工作中，作者生成了100K个样本，保留了10%作为验证集合用于计算RM的验证损失。

Fig 2. 真实 vs 合成奖励模型训练设置的示意图。人类标注者生成比较数据。在真实的人类反馈强化学习（RLHF）设置中，这些数据被用来训练一个代理奖励模型，该模型通过强化学习（RL）或最佳选择采样（BoN）进行优化。而在我们的合成设置中，我们则使用一个『标准奖励模型（Gold RM）』作为我们的真实标准。

用表示标准奖励打分，表示优化后策略模型与初始策略模型的KL距离（作者用当前策略距离初始策略的KL距离表示策略模型的优化情况），定义，注意到对于Best-of-N（BoN）方式而言，其KL距离存在解析解 [3]，如公式(1-1)所示，其中的为BoN采样数量。作者在做了众多试验后，得出了一个经验公式，如(1-2)所示，其中的为公式参数，通过实验拟合得出（受到代理RM模型参数量、代理RM模型的训练数据量等等因素决定），定义当时候为。 $）$ 从这个公式中不难发现这个曲线是一个随着KL距离增加，开口朝下的二次曲线，这意味着随着代理奖励模型优化的进行，标准奖励打分会先增加，意味着此时代理奖励模型还未遇到过度优化。到达一定程度后，标准奖励打分开始下降，意味着代理奖励模型开始过度优化。

奖励模型参数量维度的尺度扩展

Fig 3. 策略模型的参数量保持不变（1.2B参数），而奖励模型的规模则有所变化。图表的x轴采用平方根刻度。请注意，这些图表的x轴是不同的。标准奖励代表了真实奖励；观察到，当我们针对标准奖励的已学习代理进行优化时，标准奖励最初会增加，随后则会减少。公式(1-2)提炼的函数形式能够很好地拟合这一效应（Gold Fit曲线）。

我们看到实际的试验曲线情况，如Fig 3.所示，这些是在90K合成训练数据下训练代理奖励模型（策略模型参数量固定在1.2B）的结果，分别采用了BoN训练方案和RL训练方案，横坐标是优化策略模型和初始策略模型的KL距离（表示优化程度），纵坐标是RM打分。关注到：

深色实线表示标准奖励模型的打分，这也是公式(1-2)所建模的，而对应颜色的浅色实线就是根据公式(1-2)的拟合曲线，能发现能很好地拟合实际实验的结果。
标准奖励模型能到达的顶峰值随着代理奖励模型的参数量提升而提升，存在参数量的尺度扩展效应。
如虚线所示，代理奖励打分是线性增加（BoN）或者对数增加的（RL），这表面对于代理奖励模型而言，是随着优化的进行，其模型效果是变得更好的。但是我们知道标准奖励打分是到一定程度后会下降的，这个差值可以认为是代理奖励模型过度优化而带来的奖励劫持程度。不难发现，奖励劫持的程度是随着优化程度逐渐变大的。

在不同代理奖励模型参数量下，从公式(1-2)中解算出的和（从Fig 3中不难发现，我们有一系列KL-RM score数据点，可以采用最小二乘法等方法解算出这些参数），这些参数的曲线图如Fig 4所示，其中的是设置为了一个常数。从图中能看出，这些待定参数和代理奖励模型参数量呈现线性关系，这意味着在给定了代理奖励模型参数量的情况下，可以预测其标准奖励打分的峰值。

Fig 4. 在最佳选择采样（BoN）和强化学习（RL）的过优化扩展规律中，随着参数数量的变化，代理奖励（虚线）和标准奖励（实线）的 α_bon,β_{bon}和β_{RL}的值。

奖励模型训练数据量的尺度扩展

在固定代理奖励模型参数量为12M后，作者实验了不同训练数据量下的效果，如Fig 5.所示，能发现：更多的数据会带来更高的标准奖励打分和更少的古德哈特效应（可以理解为奖励劫持的现象减少了）。不过在数据量的扩展中，未曾观察到如Fig 4一般，在等函数参数上的尺度扩展关系。

Fig 5. 奖励模型数据扩展实验。奖励模型（RM）的规模保持不变（12M参数量），而奖励模型的数据量则有所变化。图表的x轴采用平方根刻度。请注意，这些图表的x轴是不同的。虚线表示代理奖励，实线表示标准奖励。

从Fig 5中能隐约发现，当训练数据量比较少的时候（比如120、250...），随着KL的增大，标准奖励打分是递减的趋势，这意味着参与训练的数据量可能有一个最低的下限。我们再看到Fig 6，从图(a)中，我们能看出：

在不同的模型大小下，随着数据量的提升，其模型效果在提升（RM验证损失持续下降，标准奖励打分持续提高），这证实了奖励模型也有数据量上的尺度扩展效应。
注意到当数据量小于2000时候，所有大小的奖励模型的性能都接近随机，这意味着对于奖励模型而言存在一个最小的训练数据量，只有大于这个数据量才能正常训练奖励模型。

Fig 6. 在不同的训练数据量和模型大小的组合下，其RM验证损失和最大的标准奖励打分结果。

策略模型的尺度扩展

前面的研究都是固定了策略模型⁴大小的（1.2B参数量），作者在文章中研究了增大策略模型尺寸（1.2B 6B）是否对奖励模型训练有所帮助。如Fig 7.所示，我们能发现6B策略模型参数量确实1.2B策略模型参数量，从标准奖励打分角度，在初始阶段有着较大的优势，但是这个优势随着训练的进行会逐渐缩小，最后6B比1.2B的优势并不大。

从直观上看，更大的策略模型由于会更容易生成奖励模型偏好的输出，因此会更容易过度拟合，不过从Fig 7.看并非如此，我们看到(b)，两种尺寸的模型都在接近的训练程度上达到了峰值（意味着更大尺寸的策略模型并没有让过度优化变得更快），从(c)的代理奖励模型和标准奖励打分的差值来看，也能发现两种尺寸模型的奖励劫持程度基本上接近（6B模型的奖励劫持程度甚至还整体更低些）。因此，较大的策略模型在针对奖励模型进行优化时获得的提升较小，不过也不会出现更多的过优化现象。

Fig 7. 策略模型扩展实验。奖励模型的规模保持不变（12M参数），而策略模型大小有所变化。图表的x轴采用平方根刻度。请注意，这些图表的x轴是不同的。虚线表示代理奖励，实线表示标准奖励。在强化学习图表中，星号表示每个策略规模下的最大金标准分数。

RL和BoN方式训练模型的对比

直观上看，一个预训练好后的LLM的效果上限是其Best-of-N结果，后训练（包括行为克隆和偏好对齐等）的目的就是将Best-of-N结果蒸馏到LLM中，这个蒸馏的方式有两种：

BoN方式：采用奖励模型对N个LLM采样结果（也称为N个轨迹）进行打分，然后选取其中的最好结果集合，然后通过SFT将最好结果集合蒸馏到LLM中，这个过程可以迭代反复进行。如同Fig 8. 所示，在每一轮的BoN过程中，如公式(1-1)所示，其增加的KL距离是固定的。注意到，BoN的方式只会保留N个轨迹中被奖励模型选出的唯一一个轨迹蒸馏到目标LLM中，这意味着对采样轨迹的利用率较低。
通过PPO的方式（RL方式）：采用PPO的方式，此时奖励模型同样对采样的N个轨迹进行打分，不过PPO的方式可以充分利用N个轨迹，并且策略模型在每一个训练步中，都会存在KL距离的增加，根据Fig 9 (a) 所示，其KL距离增加随着步数增加呈现二次方的关系，因此RL过程如Fig 8.的粉色虚线所示，是以逐渐增加的较大KL步长搜索到最终策略（也即是图中的策略 #4）。当然，从图中也不难发现，RL方式的KL步长如果没控制好，就容易错过最佳策略，这也暗示了RL方式的不稳定性。

Fig 8. 在后训练中，无论是BoN还是RL，模型都是通过消耗KL距离去搜索新策略。BoN的每一轮搜索增加的KL距离是log(n)，而RL随着训练步数其KL距离以二次方速度增加。

从以上讨论看，基于BoN的方法和基于RL的方法（通过PPO）去后训练LLM，其方式差别很大，预期其两者的奖励模型的过度优化情况会有所不同，因此作者在本文对此也进行了研究。作者在本文中，把KL距离视为是一种可以被『消耗』的资源，在模型训练过程中，通过消耗KL距离去找到新的策略（通过奖励模型去判断新策略是否比旧策略好），如Fig 8所示。

如公式(1-1)所示，BoN的优化方式，KL距离的增加都是稳定的，大约是的增长，因此是一个局部的搜索，而RL的优化方式中每一步都会修改上一步的策略，带来KL距离的增加，从Fig 9 (a)的实验看，无论是何种模型大小，其KL距离都是随着训练步数，呈现二次增加（没有引入KL惩罚的情况），因此对比BoN，RL是一种更为低效利用KL资源的一种方式。

Fig 9. 奖励模型中，不同模型大小下KL距离随着训练步数的变化情况，以及加入了KL惩罚项后的变化曲线。

不过这也从另一种角度说明，不同的训练方式下，消耗KL距离的方式也不同，采用KL距离去量化衡量优化过程是不充足的，因此也就无法使用KL距离作为横坐标，将BoN和RL两种方式下的标准奖励打分绘制曲线进行对比。存在一些对策略的扰动，这些扰动与奖励信号正交（也即是导致奖励劫持的原因，奖励模型建模中没有建模出这些正交的扰动信号），会导致KL距离增加，但并不会提升标准奖励或代理奖励，相反，一些极其微小但精准的目标化扰动，可以在很小的KL预算内显著改变策略的行为。

作者指出，可以考虑采用代理奖励打分作为一种量化的指标，如Fig 10所示此时可以通过对比作为指代奖励劫持的指标，去对比BoN和RL的表现。Fig 10中，理想的曲线应该是，也即是曲线越靠近对角线就表示该方法越好，其中不同颜色表示的是不同的模型大小（笔者猜的，原文没提到这点），可以发现在不同的模型尺度下，都是RL方式会优于BoN方式。

Fig 10. 代理指标与标准的RM分数在BoN和RL中的对比。为了便于阅读，RL曲线在代理RM分数为1.6处被截断。

KL惩罚项的作用类似于『早停』

在RL优化过程中，可以增加KL惩罚项（）去约束KL距离的过度增加，增加了KL惩罚项后的策略损失如公式(1-3)所示，其中的为时刻的优势函数，，为惩罚项大小。增加了KL惩罚项后的曲线如Fig 9 (b) 所示，可以发现KL惩罚项越大，KL距离增加的速度就越慢，最后接近停滞。从Fig 11.中，我们对比不同大小的KL惩罚项后发现，不同的KL惩罚项只会影响收敛速度，而不会影响标准奖励打分的峰值，这意味着KL惩罚项的作用类似于『早停』，是一种正则化工具。

Fig 11. 在不同KL惩罚项下的RL优化实验。策略网络的大小（1.2B参数）和奖励模型的大小（1.2B参数）保持不变。虚线表示代理奖励（proxy rewards），实线表示真实奖励（gold rewards）。我们观察到KL惩罚对真实得分（gold score）的影响等同于早停（early stopping）。

在原文中，作者还指出古德哈特现象分为以下四种，然后分析了奖励劫持现象在这四个现象中的分类，受限于篇幅本文就不展开了，有兴趣的读者可以翻阅原论文 [1]。

回归型古德哈特现象
外部型古德哈特现象
因果型古德哈特现象
对抗型古德哈特现象

笔者读下来，这篇文章的信息密度很大，是一篇常读常新的极品文章，其主要论点有：

奖励模型可以尺度扩展以缓解奖励劫持问题（模型尺寸、训练数据大小），但是训练数据大小会有一个最低的数量要求。
奖励模型的过度优化现象在不同尺寸的模型和不同大小的训练数据下都会出现。
策略模型的尺度扩展，对奖励模型缓解奖励劫持无太大帮助。
KL距离是一种资源，BoN和RL的优化模式是不同的，他们消耗KL距离的方式也不同。
KL惩罚项会加速模型收敛，但是不会提高模型的性能峰值，是一种类似『早停』的正则项。

当然，本文也留下了一些重要的待探索的问题，比如：

探索多轮迭代式地优化RLHF
继续深入探索对策略模型的尺度扩展
探索除了BoN和RL之外的其他训练方式
当前的标准模型是采用的合成标签训练的，合成标签和真实的世界标签会有差距。

如果觉得该博文对您有所帮助，笔者强烈建议您翻阅原论文，以获得第一手的信息。

Reference

[1]. Gao, Leo, John Schulman, and Jacob Hilton. "Scaling laws for reward model overoptimization." In International Conference on Machine Learning, pp. 10835-10866. PMLR, 2023.

[2]. Kaplan, Jared, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

[3]. Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul Christiano. Learning to summarize from human feedback. Computing Research Repository, 2020. version 3

一个典型的LLM训练管道包含有：预训练（Pretrain）、行为克隆（SFT）、人类偏好对齐（Preference Alignment）等几个过程，其中的人类偏好对齐部分，通常会采用奖励模型进行偏好打分，从LLM的输出采样中选取最符合人类偏好的样本。↩︎
之所以称之为代理奖励模型（Proxy Reward Model），是因为标注的训练数据总是有限的，因此训练出来的奖励模型其实是真实的奖励模型的一个『代理』。↩︎
通常这类型模型在一些工作中也会被称之为『Oracle』，也就是『先知』↩︎
策略模型（Policy Model）：策略模型负责生成行为或输出，例如在语言生成任务中生成文本。奖励模型（Reward Model）：奖励模型用于评估策略模型生成的行为或输出的质量，并提供反馈信号，用于优化策略模型。↩︎