机器学习杂货铺总店

Home
About
Tags
Categories
Archives
Search

大模型后训练Category

大模型偏好对齐中的DPO和PPO方法

09-13

奖励模型中的尺度扩展定律和奖励劫持

02-09

GitHub E-Mail StackOverflow

© 2026 FesianXu

该站点文章共424.3k字，欢迎光临~