机器学习杂货铺总店

Home
About
Tags
Categories
Archives
Search

Good! 126 posts in total. Keep on posting.

2026

生成式奖励模型需考虑对齐推理过程

02-27

关系视觉相似度（Relational Visual Similarity）

01-11

2025

视觉大语言模型未能充分利用视觉表征

09-13

大模型偏好对齐中的DPO和PPO方法

09-13

BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法

03-24

给定计算预算下的最佳LLM模型尺寸与预训练数据量分配

03-14

大模型推理时的尺度扩展定律

03-02

世界多胞体与世界模型

02-09

从一个例子开始，理解互联网岗位分工

02-09

奖励模型中的尺度扩展定律和奖励劫持

02-09

12…13 下一页

GitHub E-Mail StackOverflow

© 2026 FesianXu

该站点文章共424.3k字，欢迎光临~