生成式奖励模型需考虑对齐推理过程

奖励模型的结果精度并非评价其性能的唯一标准,模型得出正确结果的推理过程合理性也需要进行建模优化...

FesianXu 20260214 at Wechat Search Team

前言

近期读到千问团队发表的一篇关于奖励模型的最新研究 [1],其核心观点为:奖励模型的结果精度并非评价其性能的唯一标准,模型得出正确结果的推理过程合理性也需要进行建模优化。这一观点与笔者近期在生成式奖励模型(Generative Reward Model, GenRM)领域的实践感知高度契合。因此撰写本篇技术笔记做梳理总结,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢

  • 关键词:生成式奖励模型(GenRM)、推理退化、推理一致性

联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

github page: https://fesianxu.github.io/

微信公众号:机器学习杂货铺3号店


笔者最近在做GenRM相关的事情,有几个很明显的感知:

  1. 若单纯以结果精度(Outcome Accuracy, OA)为评价标准,带思维链(Chain of Thought, COT)的 GenRM 效果未必优于无 COT、仅输出最终结论的 GenRM,只有当 COT 本身的合成精度较高时,带 COT 的 GenRM 才能在结果精度上实现增益;
  2. GenRM 的性能高低,不应仅通过结果精度衡量。即便是相同结果精度的模型,其生成的 COT 合理性也差距悬殊。部分场景下能明显观察到,GenRM 并未真正分析回答中的核心问题,而是通过感知样本的话术、长度、回答风格等表面特征做出判断,甚至在 COT 存在严重逻辑错误的情况下,仍能输出正确的最终结果。

基于此,笔者认为 GenRM 的训练过程(甭管是有监督微调 SFT 还是强化学习 RL)与评估过程,都需要将 COT 的准确度纳入核心考量。刚好这个月就刷到了千问团队的一个工作 [1],恰好针对 GenRM 的这一核心问题展开了系统性分析,具备重要的理论与工程实践意义。

生成式奖励模型(GenRM)和基于大模型的评估(LLM-as-a-Judge),都会表现出欺诈性对齐(Deceptive Alignment),即在错误的原因下产生了正确的判断,这是因为它们在训练和评估中都优先考虑结果准确率,导致RM往着结果正确性的方向『一路狂飙』,这削弱了其在后续强化学习应用中的泛化性能。在本工作中,作者提出用一个外部LLM对GenRM的COT过程进行审查,并且提出用推理一致性(Rationale Consistency, RC)这一指标去衡量GenRM的推理COT过程和人工评估推理过程的一致性(将人工评估推理过程视为真实值(Oracle)),进而完整刻画GenRM的性能。

作者对外部主流的LLM进行了衡量,如Fig 1所示,横坐标是结果的精度OA,而纵坐标是推理一致性RC(即是推理过程的精度),可以发现大多数LLM的OA和RC是呈现正相关关系的,但是也有两个明显的离群区域,绿色区域的RC明显高出同等OA水平的同类模型,而红色区域的RC明显低于同类OA水平的模型,特别是对于GPT-o3和GPT-o3 mini这两个同系列同厂商的模型,其OA水平非常接近,但是RC水平却差别巨大(~17%),作者也用具体例子指出,尽管两者OA相近,但其判断逻辑却存在根本差异,o3 能够识别出类似于人类评论员的潜在缺陷,而 o3-mini 则频繁依赖表面化、模糊的解释,未能发现其实际缺陷。另外,OA指标已接近饱和,无法清晰区分各种前沿模型性能,但是RC指标仍具有足够大的区分度。以上种种表明OA和RC这两个指标的确具有关联却又有所差异,能够协同去评判一个GenRM的优劣。

Fig 1. 结果准确率 对比 人类推理一致性。推理一致性指标能够有效区分各类当前顶尖模型,并可检测出欺骗性对齐现象。

我们接下来具体看如何定义RC这个指标,这也是这个文章最重要的技术细节了。从推理一致性指标的引入背景来看,其需要量化衡量当前GenRM推理的过程和人工评论之间的差异程度,一种可行且成本较低的方法,是采用外部LLM将自由形式的人工评论转化为可验证的、原子化的表达,然后将其视为打分表,对照GenRM的推理过程,判断能够命中打分表的项有多少,进而算出最终的推理一致性。

作者将这个方式称之为元裁判(Meta Judger),具体来说,作者首先构建了一个基于HelpSteer3 [2] 数据集的原子级理由基准,HelpSteer3数据集是专家标注的人类偏好数据集,涵盖通用对话、代码、STEM 以及多语言任务,每个实例包含有一个查询x,两个响应,偏序关系判断标签和详细的人类判断理由,判断理由是自由形式的,也即是没有进行格式化或者原子化,会影响后续判断推理一致性的精度,因此作者采用GPT5将每个自由形式的理由分解为原子粒度的推理,分解过程遵循以下原则:

  1. 保留具体、基于证据的推理,同时过滤掉泛泛而谈的主观陈述
  2. 去除冗余,使每个原子项形成一个独立的语义单元

作者举了两个原子项分解的例子,如Fig 2所示。由于观察到过多/过少推理的case下,反馈质量的明显低下的情况,因此作者只保留了评判点(也即是原子项)数量在3-7个的实例,最终形成的基准称之为HelpSteer3-Atomic。为了进一步加强评估,作者构建了 CW-Atomic,其中人工标注者以相同的原子格式对 350 个创意写作样本进行标注。每个样本由三位标注者进行标注;存在标注者意见不一致的实例被移除,最终得到 207 个高质量的测试用例。(CW-Atomic的原子评估项完全由人工构建,而不是外部LLM进行分解得到,准度更高)

Fig 2. 左图事实验证任务,展示推理分解过程。用户错误地声称“杰弗里·哈德”被催眠。三位评估者指出回答 1 存在未经支持的主张和无关讨论的问题。分解过程提取出三个具体且可操作的检查项,同时过滤掉主观或模糊的陈述。右图事实查询任务,展示了在两个响应中均存在缺陷的分解方法。用户询问一部电视剧的情节。回答 1 包含了无关信息,而回答 2 虚构了情节细节。分解方法提取了 4 个可操作的项目。

在GenRM推理过程中,强制要求输出按照重要性排序依次给出原子级别的理由,如Fig 3所示依次生成的『批评点』所示,记作,然后对于每一个人类的原子理由,一个外部LLM将对比中的所有GenRM原子理由,得到,这是一个二元判断,1表示理由完全匹配且关键条件/证据一致,而 0 表示该问题缺失、矛盾,或仅以泛化、非局部化的方式陈述。

为防止模型通过生成单一宽泛的原因来同时匹配多个真实原因而操控指标,作者施加了严格的一对一匹 配约束,如公式(1)所示,其中的是一个匹配集,使得 中的任何理由在 中最多出现一次。在此约束下,每个 GenRM生成的原子理由,最多可以与一个最佳匹配的人类原子理由匹配。 基于全局最优匹配得分 ,将推理一致性RC定义为个样本上的平均召回率,如公式(2)所示,其中为第个样本的人类原子理由集合的大小。 此外,由于不同模型输出的推理列表长度不同,在评估阶段,强制所有模型输出固定长度的推理列表(例如,前 5 个,期望是GenRM在输出过程中,将影响结果的最重要原子理由尽可能排到前面),这限制了输出预算,以测试模型识别关键推理的能力。在训练过程中则不施加此约束。

Fig 3. 展示的两个原子化理由判断的case,其中采用了不同的模型去生成原子化的理由(批评点)。

作者根据以上过程便定义出来推理一致性RC这个指标,对市面上主流的19个前沿大模型进行评估,采用Qwen3 plus作为MetaJudge评估,这样得出了Fig 1,正如我们一开始讨论的,红色区域的OA指标高但RC指标明显偏低,这意味着落于这部分的模型存在明显的欺诈性对齐,即是通过不合逻辑、错误的推理过程得出了正确的最终结论。我们看到Fig 4,这里举了一个GPT-o3和GPT-o3-mini的例子,在这个例子中,尽管两个模型的最终偏序预测都是正确的,但是计算出来的RC指标却差别甚大(0% vs 75%),这意味着o3-mini完全没有召回一条和人类评估一致的原子理由,这是一个严重的缺陷!但是仅通过结果导向的OA指标,却无法对这种缺陷进行监控!

从整体来看,即便是最前沿的模型如gemini3 pro,其RC指标也仍然小于0.40,这意味着GenRM在RC指标层面还有巨大的提升空间。近期工作积极探索使用大模型来合成人类偏好,虽然这降低了标注成本,但也存在与人类判断逻辑不匹配的风险,可能陷入虚假对齐的陷阱。在可预见的未来,仍需依赖人工标注才能实现与人类的真正对齐。

Fig 4. 所提出评估方案的案例示例,两个模型(o3和o3-mini)最终做出了相同决策,但 o3-mini 仅依据表面线索(格式、表情符号)进行判断,推理一致性为 0%;而 o3 则基于事实核查,推理一致性达 75%。该分析会针对每一条推理依据,给出细粒度拆解。

众所周知,GenRM可以采用GRPO [3] 进行RL训练,通过以最终输出结果正确与否为导向(也即是OA导向),去优化推理的COT过程。在这个工作中,作者提出了一个独立于OA的RC指标,那么一个朴素的想法是,该指标是否可以也用于GenRM的GRPO训练过程?

当然是可以的,可以将GenRM生成的原子原因序列视为一个有序列表。为了优先考虑与人类对齐的原因的重要性(排名靠前的原子理由更可能是一个核心理由,因此出错/正确后应该基于更大的惩罚/奖励),作者采用平均准确率AP作为推理理由的奖励 ,其中表示在排序第个原子理由的精准率(precision),是从图匹配结果导出的指示函数(如果第 k 个理由属于最优匹配集,则取值为 1,否则为 0)。AP与 F1 得分不同,F1 得分将输出视为无序集合,AP 的核心优势在于引入了软排序的约束。它不仅要求模型检索全面的理由,还激励将与人类认知一致的核心理由置于推理列表的顶部。 混合奖励,设计为乘积项,即是如公式(4)所示,此时乘积项相当于一个门控,只有在输出结果为正确的情况下,否则为,而只是进行了门控触发,最终奖励大小还得依赖于推理的合理性判断,也就是 最终仍然是采用GRPO算法进行RL训练,在此就不加赘述了。在基准测试中,在各个基准集合上引入了推理一致性奖励后效果都有大幅度提升(4-5%),具体数值就不在这里展开了,这些是GenRM的静态性能评估。我们更关注的还是在这过程中能得到什么启示。作者发现了一个关键结果:仅基于结果的监督可以提高与人类决策的一致性(即是结果准确率),但其潜在的判断过程却越来越偏离人类逻辑。如Fig 5所示,我们发现在对GenRM进行RLVR的过程中,无论RM是仅优化最终结果,亦或同时优化结果和推理过程的训练的,其最终结果准度的奖励值变化都是类似的,如Fig 5 左图所示,但是在推理一致性RC奖励上则差别明显,最大差别达到了24.2%,这意味着在GenRM仅是用最终结果为目标进行优化的情况下,其推理过程容易『找捷径』,也就是GenRM倾向于舍弃代价高昂的复杂思维过程和高昂的验证步骤,转而依赖更廉价的替代线索(更浮于表面,而不是本质上的差别),从而仍能获得相近的结果奖励。作者称这个现象为推理退化(Rationale Degeneration)。

Fig 5. 尽管不同方法的结果准确率仍处于相近水平,但缺少推理过程监督会导致推理质量出现显著崩塌。

为了衡量训练过程中推理退化的程度,作者对原子化的理由进行了分类,大致可以分为以下三类:

  • 基于证据的(Evidence-Grounded),其理由集中在引用回答中具体出问题的地方。
  • 基于准则的(Criterion-Grounded)
  • 通用/风格(Generic/Style),其理由集中在表明回答中存在的画风、语气等问题。

如Fig 6 (a) 所示,在GenRM训练前,底座模型更加关注的是EG,也即是分析内容倾向于会引用并且指出回答中的确切问题的地方,而在带上了结果一致性目标(Outcome Consistency,OC)后,GenRM的分析过程会逐渐远离EG的分析模式,反而出现了:

  • 出现空洞的描述,比如听起来很专业但是并没有指出任何具体问题的陈述,如『这个代码存在逻辑错误』,但是并没有具体指出何处代码具有何处错误。
  • 广泛而笼统的 GS 理由,如“回答 B 更详细”。由于结果奖励是一个可被操纵的二元信号,仔细检查回答中的证据与获得奖励之间的相关性较弱,因此GenRM会越来越依赖表面的线索,从而逐渐削弱了评估过程的有效性。

Fig 6. 图 (a) 训练前、采用OC训练、采用OC+RC训练情况下的三种原子化理由类别的分布;图 (b) 不同种类的失败模式的分布情况。

为了量化衡量不同种类的推理失败模式在训练前后的变化情况,作者将推理失败模式分为了以下七种类型:

  • F1 (Style only):仅关注格式、长度或语气,而非具体内容的好坏。
  • F2(Generic Correctness):通用正确性,声称某一回答更正确,但未引用具体的证据。
  • F3 (Generic Relevance):声称某一回答更具相关性,但未指向具体的证据或分析内容。
  • F4(Single-Sided Praise):单边称赞,仅赞扬其中一个回答,而不将其与其他回答进行对比。
  • F5(Unfalsifiable):无法证伪,无法从给定的回应中验证或反驳,更加可能是GenRM本身的幻觉内容。
  • F6(Non Sequitur):逻辑缺失,结论无法从所述前提中根据正确逻辑过程得出。
  • F7(Contradiction):与同一推理中的其他声明相冲突。

如Fig 6 (b) 所示,只利用OC目标训练的GenRM,其F1、F4和F5类型的错误模式会大幅度提升,其中F4单边赞扬从训练前的17.8%提升到62%(+44.2%),这也说明了只用OC目标训练的GenRM是先得到判断再进行解释理由,而不是先解释理由再得到判断,因此会倾向于做出单边答案的赞扬而忽略另一个答案。F1也大幅增加,说明模型更依赖答案浮于表面的线索。F5 不可证伪性也随之上升,显示出更多难以验证的模糊陈述。在引入了推理一致性的奖励信号后,这些被放大的缺陷急剧下降。F4 降至0.05%,几乎完全消除了单边论据。F1 回归接近预训练水平。F2、F3 和 F5 也降至接近零。总体而言,推理监督减少了浮于表面的启发式行为,促进了基于证据的真正比较性推理。

Reference

[1]. Wang, Binghai, Yantao Liu, Yuxuan Liu, Tianyi Tang, Shenzhi Wang, Chang Gao, Chujie Zheng et al. "Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models." arXiv preprint arXiv:2602.04649 (2026).

[2]. Wang, Zhilin, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, and Oleksii Kuchaiev. "HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages." arXiv preprint arXiv:2505.11475 (2025). Aka HelpSteer3.

[3]. Shao, Zhihong, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024." URL https://arxiv. org/abs/2402.03300 2, no. 3 (2024): 5.