机器学习杂货铺总店
Home
About
Tags
Categories
Archives
Search
大模型后训练
Tag
生成式奖励模型需考虑对齐推理过程
02-27
大模型偏好对齐中的DPO和PPO方法
09-13