Shift-GCN中Shift的实现细节笔记

Posted on 2023-01-03 | In 动作识别

Words count in article: 91k 字 | Reading time ≈ 5:31 分钟

近期在看Shift-GCN的论文[1]，该网络是基于Shift卷积算子[2]在图结构数据上的延伸。在阅读源代码[3]的时候发现了其对于Non-Local Spatial Shift Graph Convolution有意思的实现方法，在这里简要记录一下。

一文搞懂反卷积，转置卷积

Posted on 2023-01-03 | In 深度学习

Words count in article: 79k 字 | Reading time ≈ 4:46 分钟

本文翻译自《Up-sampling with Transposed Convolution》，这篇文章对转置卷积和反卷积有着很好的解释，这里将其翻译为中文，以飨国人。

WenLan 2.0：一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹

Posted on 2023-01-03 | In 多模态模型

Words count in article: 198k 字 | Reading time ≈ 12:01 分钟

笔者在前文 [1] 中曾经介绍过一种大规模图文匹配模型BriVL，该模型基于海量数据进行对比学习预训练，从而可以实现很强的多模态建模能力。WenLan 2.0是该工作的后续探索，本文尝试简单对其进行笔记。

图文搜索系统中的多模态模型：将MoCo应用在多模态对比学习上

Posted on 2022-12-31 | In 多模态模型

Words count in article: 180k 字 | Reading time ≈ 10:55 分钟

之前我们在[1]中介绍过超大负样本对于对比学习训练的重要意义，并且在[2,3]中介绍了MoCo，Memory Bank等方法去突破硬件限制地去进一步增大负样本数量。然而，之前这些方法都尝试在单模态数据上进行对比学习[4]，在文章[5]中，作者团队提出了WenLan项目，尝试在多模态模型中采用MoCo的形式进行大尺度负样本对比学习。

在多模态模型训练时，如何合适地融合单模态损失

Posted on 2022-12-31 | In 多模态模型

Words count in article: 368k 字 | Reading time ≈ 22:17 分钟

文章[1]的作者发现在多模态分类模型中，经常出现最好的单模态模型比多模态模型效果还好的情况，作者认为这是由于多模态模型的容量更大，因此更容易过拟合，并且由于不同模态的信息过拟合和泛化有着不同的节奏，如果用同一个优化策略进行优化，那么很可能得到的不是一个最佳的结果。也就是说作者认为目前的多模态融合方式还不是最合适的，因此在[1]中提出了一种基于多模态梯度混合的优化方式...

CLIP-对比图文多模态预训练的读后感

Posted on 2022-12-31 | In 多模态模型

Words count in article: 161k 字 | Reading time ≈ 9:46 分钟

CLIP是近年来在多模态方面的经典之作，其用大量的数据和算力对模型进行预训练，使得模型的zero-shot性能甚至可以匹敌众多数据集上的监督SOTA，实在让人惊叹不已，本文简要纪录下笔者阅读该文后的读后感以及一些启发。

【论文极速看】CLIP-Lite：一种不依赖于负样本数量的高效多模态学习方法

Posted on 2022-12-31 | In 多模态模型

Words count in article: 585k 字 | Reading time ≈ 35:26 分钟

【论文极速看】CLIP-Lite：一种不依赖于负样本数量的高效多模态学习方法

Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题

Posted on 2022-12-29 | In 对比学习

Words count in article: 208k 字 | Reading time ≈ 12:38 分钟

在之前的博文[1,2]中已经说明了在对比学习中提高batch size的巨大作用，然而在大尺度对比学习的训练过程中，被广泛实践证明有效的Batch Norm层则很容易出现过拟合的现象。

图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型

Posted on 2022-12-29 | In 多模态

Words count in article: 413k 字 | Reading time ≈ 25:02 分钟

之前在博文[2-4]中介绍了一些图文多模态语义对齐相关的模型，分别是WenLan 1.0， WenLan 2.0和CLIP等，这些模型都是双塔结构模型，然而在实际的应用场景中，我们会有使用单塔模型的需求，笔者在本文将介绍一篇论文[1]的思路，将单塔模型和双塔模型结合在一起进行图文多模态语义融合和对齐。

【SVM笔记系列之四】最优化问题的对偶问题

Posted on 2022-12-29 | In 机器学习

Words count in article: 519k 字 | Reading time ≈ 31:29 分钟

在SVM的推导中，在得到了原问题的拉格朗日函数表达之后，是一个最小最大问题，通常会将其转化为原问题的对偶问题即是最大最小问题进行求解，我们这里简单介绍下最优化问题的对偶问题。本人无专业的数学学习背景，只能在直观的角度上解释这个问题。