机器学习杂货铺总店


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

大模型Tag

生成式奖励模型需考虑对齐推理过程

02-27

BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法

03-24

奖励模型中的尺度扩展定律和奖励劫持

02-09

【论文极速读】 大规模语言模型中的能力“涌现”现象

03-25

126 posts
40 categories
226 tags
RSS
GitHub E-Mail StackOverflow
© 2026 FesianXu
该站点文章共424.3k字,欢迎光临~