视觉大语言模型未能充分利用视觉表征

Posted on 2025-09-13 | In 计算机视觉

Words count in article: 2.6k 字 | Reading time ≈ 9 分钟

这两天看到一篇新挂在arxiv上的文章 [1]，讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱，并提出集成编码器方案以弥补不足，本文认为可能是底座LLM不能充分利用视觉编码器的特征...

大模型偏好对齐中的DPO和PPO方法

Posted on 2025-09-13 | In 大模型后训练

Words count in article: 6.7k 字 | Reading time ≈ 26 分钟

也许一文能够看懂的DPO和PPO方法...

Posted on 2025-03-24 | In 大模型

Words count in article: 2.7k 字 | Reading time ≈ 10 分钟

BoNBoN结合了行为模仿和偏好对齐，在模型的Best-of-N结果基础上进行对齐...

Posted on 2025-03-14 | In 大规模语言模型

Words count in article: 3k 字 | Reading time ≈ 10 分钟

如果给定了计算预算C，如何分配LLM的模型尺寸N和训练的数据量D，才能使得模型的效果L最好呢...

Posted on 2025-03-02 | In 大规模语言模型

Words count in article: 5.5k 字 | Reading time ≈ 19 分钟

大模型的尺度扩展定律告诉我们：『LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加』。训练存在尺度扩展定律，测试也存在尺度扩展定律，实践告诉我们在推理时候增大计算量，往往可以获得模型性能收益。那么在给定了计算预算的前提下，如何安排预算才能达到最好的模型效果呢？

Posted on 2025-02-09 | In 世界模型

Words count in article: 844 字 | Reading time ≈ 2 分钟

本文记一下我的一个胡思乱想，也不知道有没有现有的论文去研究这个东西，有空我去看看...

Posted on 2025-02-09 | In 互联网趣闻

Words count in article: 5k 字 | Reading time ≈ 17 分钟

你我皆牛马，活在网中间~

Posted on 2025-02-09 | In 大模型后训练

Words count in article: 5.5k 字 | Reading time ≈ 19 分钟

奖励模型（Reward Model）中的尺度扩展规律（Scaling Laws），也即是通过扩展奖励模型的模型大小、数据量等去提升奖励模型的能力...

Posted on 2025-01-11 | In 大模型预训练

Words count in article: 2.4k 字 | Reading time ≈ 8 分钟

最近看到一篇预训练的文章，只在每条预训练数据的前面加上一个源信息（即是该信息的URL信息），就能加速训练（+33%）并且提升下游任务的效果...

Posted on 2025-01-05 | In 大模型预训练

Words count in article: 4.6k 字 | Reading time ≈ 16 分钟

LLM的预训练是决定其底座能力的至关重要的步骤，其预训练数据通常会包含有多种领域的数据，如何调整不同领域的数据配比（可以理解为采样频率）是极其重要的大模型预训练研究点...