机器学习杂货铺总店


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

大模型后训练Category

大模型偏好对齐中的DPO和PPO方法

09-13

奖励模型中的尺度扩展定律和奖励劫持

02-09

124 posts
40 categories
221 tags
RSS
GitHub E-Mail StackOverflow
© 2025 FesianXu
该站点文章共415.8k字,欢迎光临~