这两天看到一篇新挂在arxiv上的文章 [1],讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱,并提出集成编码器方案以弥补不足,本文认为可能是底座LLM不能充分利用视觉编码器的特征...
大模型推理时的尺度扩展定律
大模型的尺度扩展定律告诉我们:『LLM的性能会随着模型的参数量、模型的训练量、模型的训练数据量的增加而增加』。训练存在尺度扩展定律,测试也存在尺度扩展定律,实践告诉我们在推理时候增大计算量,往往可以获得模型性能收益。那么在给定了计算预算的前提下,如何安排预算才能达到最好的模型效果呢?
MeCO——给预训练数据增加源信息,就能减少33%的训练量并且提升效果
最近看到一篇预训练的文章,只在每条预训练数据的前面加上一个源信息(即是该信息的URL信息),就能加速训练(+33%)并且提升下游任务的效果...
DoReMi——一种通过代理模型估计大模型预训练最佳数据配比的方法
LLM的预训练是决定其底座能力的至关重要的步骤,其预训练数据通常会包含有多种领域的数据,如何调整不同领域的数据配比(可以理解为采样频率)是极其重要的大模型预训练研究点...