本文记一下我的一个胡思乱想,也不知道有没有现有的论文去研究这个东西,有空我去看看...
MeCO——给预训练数据增加源信息,就能减少33%的训练量并且提升效果
最近看到一篇预训练的文章,只在每条预训练数据的前面加上一个源信息(即是该信息的URL信息),就能加速训练(+33%)并且提升下游任务的效果...
DoReMi——一种通过代理模型估计大模型预训练最佳数据配比的方法
LLM的预训练是决定其底座能力的至关重要的步骤,其预训练数据通常会包含有多种领域的数据,如何调整不同领域的数据配比(可以理解为采样频率)是极其重要的大模型预训练研究点...
CatLIP,加速2.7倍!采用分类损失的CLIP水准的预训练视觉编码器
传统的CLIP采用对比学习的方式进行预训练,通常需要汇聚多张节点的多张设备的特征向量以进行打分矩阵的计算,训练速度通常都较慢...