最近看到一篇预训练的文章,只在每条预训练数据的前面加上一个源信息(即是该信息的URL信息),就能加速训练(+33%)并且提升下游任务的效果...
DoReMi——一种通过代理模型估计大模型预训练最佳数据配比的方法
LLM的预训练是决定其底座能力的至关重要的步骤,其预训练数据通常会包含有多种领域的数据,如何调整不同领域的数据配比(可以理解为采样频率)是极其重要的大模型预训练研究点...
CatLIP,加速2.7倍!采用分类损失的CLIP水准的预训练视觉编码器
传统的CLIP采用对比学习的方式进行预训练,通常需要汇聚多张节点的多张设备的特征向量以进行打分矩阵的计算,训练速度通常都较慢...
解耦多模态大模型中的视觉语义压缩与视觉语义摘要
在多模态大模型中,视觉连接器大致可以分为压缩型和非圧缩型,其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中,作者对Q-Former的作用提出了质疑和分析,本文进行笔记,希望对读者有所帮助...
Flamingo:一种交织图文的视觉语言大模型方法
Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节...
搜索系统中的Learning To Rank模型:GBRank
Learning To Rank(LTR)模型是对搜索/计算广告/推荐系统中的排序问题进行模型建模的方法,在当前的搜索系统中有着至关重要的作用...