机器学习杂货铺总店

Home
About
Tags
Categories
Archives
Search

大模型Tag

生成式奖励模型需考虑对齐推理过程

02-27

BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法

03-24

奖励模型中的尺度扩展定律和奖励劫持

02-09

【论文极速读】大规模语言模型中的能力“涌现”现象

03-25

GitHub E-Mail StackOverflow

© 2026 FesianXu

该站点文章共424.3k字，欢迎光临~