机器学习杂货铺总店

Home
About
Tags
Categories
Archives
Search

大模型后训练Tag

生成式奖励模型需考虑对齐推理过程

02-27

大模型偏好对齐中的DPO和PPO方法

09-13

GitHub E-Mail StackOverflow

© 2026 FesianXu

该站点文章共424.3k字，欢迎光临~