传统的视频搜索系统相关性部分主要以文本匹配为基础手段,在其中引入多模态向量容易收到『模态不均衡』的问题...
前言
传统的视频搜索系统相关性部分主要以文本匹配为基础手段,在其中引入多模态向量容易收到『模态不均衡』的问题,论文[1]尝试对其进行解决,本文进行笔记。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。
e-mail: FesianXu@gmail.com
github: https://github.com/FesianXu
知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)
微信公众号:机器学习杂货铺3号店
传统的视频搜索系统相关性部分主要以文本语义匹配/字面匹配为基本手段,其模型的输入基本上都是文本,并无视觉的语义向量。如果希望在这样一个纯文本的系统中加入视觉语义向量(此处的视觉语义向量可以是上游模型的产出,比如CLIP的产出),那么很容易遇到所谓的『模态不均衡』的问题,即是由于文本匹配更为简单(毕竟骨架网络都是基于文本进行过很多次迭代了),那么新引入的视觉语义向量就很容易在整个训练过程中被视为噪声,或者被忽视,其视觉本身的作用不容易建模出来。在论文[1]中,作者同样报告了这样一个现象,并且提出了通过『模态混洗(Modality-Shuffle)』的方法进行优化,整个框架被称之为MBVR(Modality-Balanced Video Retrieve)。如Fig 1.所示,对于一个文本-视觉成对的样本
除此之外,作者还提出用动态margin去建模,不过笔者觉得并不关键,因此就不阐述了。从整体来看,其loss如公式(1-1)所示,其中的
那么如何验证效果呢?作者进行了一些离线消融实验,并且进行了线上实验(该论文来自于快手,本方案应该是在线上进行了实验),均发现有所收益,这些常规指标就不在这里累述了。同时作者通过定向的分析,验证了模态混洗带来的优势,如公式(1-3)所示,作者定义了一个
在Fig 2 (a) 中,作者对基线模型和MBVR模型的
笔者认为这篇论文对于工业界落地多模态特征还是具有一定指导意义的,模态不均衡的问题在实际落地过程中真实存在,作者提出的解决方法不失一种有效可行的手段,在构造MS难负样本这块,后续可以继续探索,构造一些更合适的难负样本应该是有一定收益空间的。同时,也可以引入类似于MLM的,某种跨模态mask机制,去建模模态间的关系,笔者认为同样可以缓解模态不均衡的问题。
Reference
[1]. Wang, Xun, et al. "Modality-Balanced Embedding for Video Retrieval." Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.