笔者在前文[4]中介绍了LTR模型中常用的GBRank模型,在文章末尾提到了根据用户点击数据构造隐式反馈,从而构建出有序对数据进行训练,因而引出了Skip-Above
这个构建隐式反馈的方法,该方法在文章[1]中提出,作者根据翔实的用户行为学实验和分析,得出了包括Skip-Above
在内的一系列通过点击信号来构建隐式反馈的方法...
Alignment与Correspondence,用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法
在多模态大模型(Multimodal Large Language Model, MLLM)中,视觉特征就像是人的眼睛,而底座的LLM则像是人的大脑,合适的视觉特征的选择通常都是一个MLLM成功的重要一步...
SigLIP——采用sigmoid损失的图文预训练方式
CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练...
可微分检索索引(Differential Search Index, DSI)
最近从朋友处得知了DSI这个概念,所谓的可微分检索索引DSI,就是通过语言模型将检索过程中的索引和召回阶段端到端地融合在一起,输入query
模型直接输出docid
,笔者今日抽空看了下原论文,简单笔记下,希望对各位读者有所帮助...
基于CLIP特征的多模态大模型中的视觉短板问题
如今的大多数多模态大模型,其视觉输入侧采用的视觉编码器,都是依照CLIP的训练方式,采用大规模对比学习进行训练的。在论文 [1] 中,作者发现CLIP特征具有某些视觉短板,从而导致基于此的MLLM也受到了影响。作者观察到,在一些简单直接(不需要复杂推理)的问题上,MLLM似乎并不能很好解决...
万字浅析视频搜索系统中的多模态能力建设
视频搜索是天然的富媒体检索场景,视觉信息占据了视频的一大部分信息量,在视频搜索系统中引入多模态能力,对于提高整个系统的能力天花板至关重要。本文将对在视频搜索系统中落地多模态能力(特别是视觉)进行讨论,同时为了让部分无相关背景的读者补充一些背景知识,笔者将会对典型的搜索系统进行介绍...
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人类最为主要的感知世界的手段,亟待和LLM进行融合,形成多模态大规模语言模型(Multimodal LLM, MLLM),BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型,通过Q-Former巧妙地融合在一起,在引入少量待学习参数的同时,取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录,希望对诸位读者有所帮助。
【论文极速读】MetaLM, 一种融合因果语言模型和非因果语言模型的方法
熟悉笔者的读者想必都知道,最近我在恶补一些经典的LLM工作,之前也精读过MetaLM这个工作但是没有及时笔记,现在已经有些遗忘了,因此在过年期间复习了下,在此笔记希望对诸位有所帮助。
Kosmos-2, 在多模态大语言模型中引入基准和指代能力
之前笔者在博文中介绍过kosmos-1模型 [1],该模型脱胎于MetaLM采用『因果语言模型作为通用任务接口』的思想,采用了多种形式的多模态数据进行训练得到。而在本文将要介绍的kosmos-2中,作者则尝试引入了基准(grounding)和指代(referring)能力,使得多模态大语言模型的人机交互形式更加友好、灵活和多样。