机器学习杂货铺总店


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

大模型Tag

BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法

03-24

奖励模型中的尺度扩展定律和奖励劫持

02-09

【论文极速读】 大规模语言模型中的能力“涌现”现象

03-25

122 posts
40 categories
217 tags
RSS
GitHub E-Mail StackOverflow
© 2025 FesianXu
该站点文章共447k字,欢迎光临~