机器学习杂货铺总店


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

Alignment与Correspondence,用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法

Posted on 2024-10-15 | In 多模态大模型
Words count in article: 163k 字 | Reading time ≈ 9:05 分钟

在多模态大模型(Multimodal Large Language Model, MLLM)中,视觉特征就像是人的眼睛,而底座的LLM则像是人的大脑,合适的视觉特征的选择通常都是一个MLLM成功的重要一步...

Read more »

SigLIP——采用sigmoid损失的图文预训练方式

Posted on 2024-09-08 | In 多模态模型
Words count in article: 286k 字 | Reading time ≈ 15:52 分钟

CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练...

Read more »

LexLIP——图片搜索中的多模态稀疏化召回方法

Posted on 2024-07-28 | In 多模态检索
Words count in article: 460k 字 | Reading time ≈ 25:33 分钟

最近笔者在回顾&笔记一些老论文,准备整理下之前看的一篇论文LexLIP,其很适合在真实的图片搜索业务场景中落地,希望笔记能给读者带来启发。

Read more »

可微分检索索引(Differential Search Index, DSI)

Posted on 2024-07-14 | In 检索系统
Words count in article: 67k 字 | Reading time ≈ 3:42 分钟

最近从朋友处得知了DSI这个概念,所谓的可微分检索索引DSI,就是通过语言模型将检索过程中的索引和召回阶段端到端地融合在一起,输入query模型直接输出docid,笔者今日抽空看了下原论文,简单笔记下,希望对各位读者有所帮助...

Read more »

基于CLIP特征的多模态大模型中的视觉短板问题

Posted on 2024-07-06 | In 多模态大模型
Words count in article: 45k 字 | Reading time ≈ 2:29 分钟

如今的大多数多模态大模型,其视觉输入侧采用的视觉编码器,都是依照CLIP的训练方式,采用大规模对比学习进行训练的。在论文 [1] 中,作者发现CLIP特征具有某些视觉短板,从而导致基于此的MLLM也受到了影响。作者观察到,在一些简单直接(不需要复杂推理)的问题上,MLLM似乎并不能很好解决...

Read more »

万字浅析视频搜索系统中的多模态能力建设

Posted on 2024-06-30 | In 多模态检索
Words count in article: 342k 字 | Reading time ≈ 19:01 分钟

视频搜索是天然的富媒体检索场景,视觉信息占据了视频的一大部分信息量,在视频搜索系统中引入多模态能力,对于提高整个系统的能力天花板至关重要。本文将对在视频搜索系统中落地多模态能力(特别是视觉)进行讨论,同时为了让部分无相关背景的读者补充一些背景知识,笔者将会对典型的搜索系统进行介绍...

Read more »

BLIP2——采用Q-Former融合视觉语义与LLM能力的方法

Posted on 2024-06-12 | In 多模态大模型
Words count in article: 101k 字 | Reading time ≈ 5:36 分钟

大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人类最为主要的感知世界的手段,亟待和LLM进行融合,形成多模态大规模语言模型(Multimodal LLM, MLLM),BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型,通过Q-Former巧妙地融合在一起,在引入少量待学习参数的同时,取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录,希望对诸位读者有所帮助。

Read more »

【论文极速读】MetaLM, 一种融合因果语言模型和非因果语言模型的方法

Posted on 2024-06-08 | In 多模态大模型
Words count in article: 122k 字 | Reading time ≈ 6:46 分钟

熟悉笔者的读者想必都知道,最近我在恶补一些经典的LLM工作,之前也精读过MetaLM这个工作但是没有及时笔记,现在已经有些遗忘了,因此在过年期间复习了下,在此笔记希望对诸位有所帮助。

Read more »

Kosmos-2, 在多模态大语言模型中引入基准和指代能力

Posted on 2024-06-08 | In 多模态大模型
Words count in article: 38k 字 | Reading time ≈ 2:06 分钟

之前笔者在博文中介绍过kosmos-1模型 [1],该模型脱胎于MetaLM采用『因果语言模型作为通用任务接口』的思想,采用了多种形式的多模态数据进行训练得到。而在本文将要介绍的kosmos-2中,作者则尝试引入了基准(grounding)和指代(referring)能力,使得多模态大语言模型的人机交互形式更加友好、灵活和多样。

Read more »

Kosmos-1, 通用接口架构下的多模态大语言模型

Posted on 2024-06-08 | In 多模态大模型
Words count in article: 11k 字 | Reading time ≈ 37 分钟 分钟

在大规模语言模型(Large Language Model, LLM)看似要带来新一番人工智能变革浪潮之际,越来越多尝试以LLM作为通用接口去融入各种任务的工作,之前我们在[2]中曾经对其进行过简单介绍,比如尝试用LLM去控制浏览器、搜索引擎甚至是机械臂等。本文介绍的工作kosmos-1是LLM与多模态信号结合的一种尝试,对笔者有所启发,在此给大家进行推荐。

Read more »
上一页1234…13下一页

125 posts
40 categories
223 tags
RSS
GitHub E-Mail StackOverflow
© 2026 FesianXu
该站点文章共461k字,欢迎光临~