机器学习杂货铺总店

Home
About
Tags
Categories
Archives
Search

偏好对齐Tag

大模型偏好对齐中的DPO和PPO方法

09-13

BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法

03-24

奖励模型中的尺度扩展定律和奖励劫持

02-09

GitHub E-Mail StackOverflow

© 2026 FesianXu

该站点文章共424.3k字，欢迎光临~