如何将已预训练好的大规模语言模型(LLM)和多模态模型(如CLIP)进行融合,形成一个多模态大语言模型(MLLM)是目前很火热的研究课题。本文将要介绍的LLava是一个经典的工作,其采用了指令微调的方式对MLLM进行训练,笔者在此笔记,希望对诸位读者有所帮助
Prompt Tuning——一种高效的LLM模型下游任务适配方式
Prompt Tuning是一种PEFT方法(Parameter-Efficient FineTune),旨在以高效的方式对LLM模型进行下游任务适配...
【论文极速读】将Transformer用在图片上:Vision Transformer论文杂谈
Transformer自提出以来在NLP领域取得了诸多突破,而自然而然有工作在考虑如何在图片等视觉媒体上应用Transformer,本文介绍Vision Transformer (ViT)模型,并且作为笔记记录了一些笔者的读后感...
【论文极速读】 大规模语言模型中的能力“涌现”现象
最近chatGPT、GPT-4火爆了全网,笔者觉得大规模语言模型(Large Language Model, LLM)可能是未来人工智能发展的方向,因此最近也在恶补相关的论文。本次分享一个经典的工作,该工作介绍了LLM中的一种独特模型属性——“能力涌现”,而这个能力可以说是chatGPT、GPT-4等对话模型的基石...
视频与图片检索中的多模态语义匹配模型:原理、启示、应用与展望
三多前笔者在《万字长文漫谈视频理解》[1]一文中,曾经将自己对视频理解的认识进行过简单总结,幸而获得了朋友们的认可,能让读者认可是笔者最为骄傲的成就。现在看来文中观点有不少纰漏狭隘之处,特别是近年来多模态模型的流行,更让视频理解这个方向出现了诸多变革技术,之前在博文《视频分析与多模态融合之一,为什么需要多模态融合》 [2] 曾经尝试对[1]进行补丁,但是限于笔者时间和当时的认识水平,并没有进行展开讨论。本文希望能对近年来的多模态模型进行简单总结,并且简单讨论这些模型在图片搜索和视频搜索这类富媒体检索场景中的应用可能性。
【论文极速读】MoCo v3:MoCo机制下Transformer模型的训练不稳定现象
之前笔者在[1]中介绍过MoCo v1模型通过解耦batch size
和负样本队列大小,从而实现超大负样本队列的对比学习训练方案;在[2]中我们提到了当前对比学习训练中提高负样本数量的一些方法;在[3]中提到了将MoCo扩展到多模态检索中的方案。在本文,我们介绍下MoCo v3,一种尝试在Transformer模型中引入MoCo机制的方法,并且最重要的,介绍其中作者得到的一些训练的小技巧(Trick)。