传统的CLIP采用对比学习的方式进行预训练,通常需要汇聚多张节点的多张设备的特征向量以进行打分矩阵的计算,训练速度通常都较慢...
解耦多模态大模型中的视觉语义压缩与视觉语义摘要
在多模态大模型中,视觉连接器大致可以分为压缩型和非圧缩型,其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中,作者对Q-Former的作用提出了质疑和分析,本文进行笔记,希望对读者有所帮助...
Flamingo:一种交织图文的视觉语言大模型方法
Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节...
搜索系统中的Learning To Rank模型:GBRank
Learning To Rank(LTR)模型是对搜索/计算广告/推荐系统中的排序问题进行模型建模的方法,在当前的搜索系统中有着至关重要的作用...
【用户行为学研究】 从用户点击数据中构造隐式反馈
笔者在前文[4]中介绍了LTR模型中常用的GBRank模型,在文章末尾提到了根据用户点击数据构造隐式反馈,从而构建出有序对数据进行训练,因而引出了Skip-Above
这个构建隐式反馈的方法,该方法在文章[1]中提出,作者根据翔实的用户行为学实验和分析,得出了包括Skip-Above
在内的一系列通过点击信号来构建隐式反馈的方法...
Alignment与Correspondence,用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法
在多模态大模型(Multimodal Large Language Model, MLLM)中,视觉特征就像是人的眼睛,而底座的LLM则像是人的大脑,合适的视觉特征的选择通常都是一个MLLM成功的重要一步...
SigLIP——采用sigmoid损失的图文预训练方式
CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练...