可微分检索索引（Differential Search Index， DSI）

Posted on 2024-07-14 | In 检索系统

Words count in article: 67k 字 | Reading time ≈ 4:02 分钟

最近从朋友处得知了DSI这个概念，所谓的可微分检索索引DSI，就是通过语言模型将检索过程中的索引和召回阶段端到端地融合在一起，输入query模型直接输出docid，笔者今日抽空看了下原论文，简单笔记下，希望对各位读者有所帮助...

基于CLIP特征的多模态大模型中的视觉短板问题

Posted on 2024-07-06 | In 多模态大模型

Words count in article: 45k 字 | Reading time ≈ 2:42 分钟

如今的大多数多模态大模型，其视觉输入侧采用的视觉编码器，都是依照CLIP的训练方式，采用大规模对比学习进行训练的。在论文 [1] 中，作者发现CLIP特征具有某些视觉短板，从而导致基于此的MLLM也受到了影响。作者观察到，在一些简单直接（不需要复杂推理）的问题上，MLLM似乎并不能很好解决...

万字浅析视频搜索系统中的多模态能力建设

Posted on 2024-06-30 | In 多模态检索

Words count in article: 342k 字 | Reading time ≈ 20:43 分钟

视频搜索是天然的富媒体检索场景，视觉信息占据了视频的一大部分信息量，在视频搜索系统中引入多模态能力，对于提高整个系统的能力天花板至关重要。本文将对在视频搜索系统中落地多模态能力（特别是视觉）进行讨论，同时为了让部分无相关背景的读者补充一些背景知识，笔者将会对典型的搜索系统进行介绍...

BLIP2——采用Q-Former融合视觉语义与LLM能力的方法

Posted on 2024-06-12 | In 多模态大模型

Words count in article: 101k 字 | Reading time ≈ 6:06 分钟

大规模语言模型（Large Language Model,LLM）是当前的当红炸子鸡，展现出了强大的逻辑推理，语义理解能力，而视觉作为人类最为主要的感知世界的手段，亟待和LLM进行融合，形成多模态大规模语言模型（Multimodal LLM, MLLM），BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型，通过Q-Former巧妙地融合在一起，在引入少量待学习参数的同时，取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录，希望对诸位读者有所帮助。

【论文极速读】MetaLM, 一种融合因果语言模型和非因果语言模型的方法

Posted on 2024-06-08 | In 多模态大模型

Words count in article: 122k 字 | Reading time ≈ 7:23 分钟

熟悉笔者的读者想必都知道，最近我在恶补一些经典的LLM工作，之前也精读过MetaLM这个工作但是没有及时笔记，现在已经有些遗忘了，因此在过年期间复习了下，在此笔记希望对诸位有所帮助。

Kosmos-2, 在多模态大语言模型中引入基准和指代能力

Posted on 2024-06-08 | In 多模态大模型

Words count in article: 38k 字 | Reading time ≈ 2:18 分钟

之前笔者在博文中介绍过kosmos-1模型 [1]，该模型脱胎于MetaLM采用『因果语言模型作为通用任务接口』的思想，采用了多种形式的多模态数据进行训练得到。而在本文将要介绍的kosmos-2中，作者则尝试引入了基准（grounding）和指代（referring）能力，使得多模态大语言模型的人机交互形式更加友好、灵活和多样。

Kosmos-1, 通用接口架构下的多模态大语言模型

Posted on 2024-06-08 | In 多模态大模型

Words count in article: 11k 字 | Reading time ≈ 40 mins. 分钟

在大规模语言模型（Large Language Model, LLM）看似要带来新一番人工智能变革浪潮之际，越来越多尝试以LLM作为通用接口去融入各种任务的工作，之前我们在[2]中曾经对其进行过简单介绍，比如尝试用LLM去控制浏览器、搜索引擎甚至是机械臂等。本文介绍的工作kosmos-1是LLM与多模态信号结合的一种尝试，对笔者有所启发，在此给大家进行推荐。