三多前笔者在《万字长文漫谈视频理解》[1]一文中,曾经将自己对视频理解的认识进行过简单总结,幸而获得了朋友们的认可,能让读者认可是笔者最为骄傲的成就。现在看来文中观点有不少纰漏狭隘之处,特别是近年来多模态模型的流行,更让视频理解这个方向出现了诸多变革技术,之前在博文《视频分析与多模态融合之一,为什么需要多模态融合》 [2] 曾经尝试对[1]进行补丁,但是限于笔者时间和当时的认识水平,并没有进行展开讨论。本文希望能对近年来的多模态模型进行简单总结,并且简单讨论这些模型在图片搜索和视频搜索这类富媒体检索场景中的应用可能性。
【论文极速读】MoCo v3:MoCo机制下Transformer模型的训练不稳定现象
之前笔者在[1]中介绍过MoCo v1模型通过解耦batch size
和负样本队列大小,从而实现超大负样本队列的对比学习训练方案;在[2]中我们提到了当前对比学习训练中提高负样本数量的一些方法;在[3]中提到了将MoCo扩展到多模态检索中的方案。在本文,我们介绍下MoCo v3,一种尝试在Transformer模型中引入MoCo机制的方法,并且最重要的,介绍其中作者得到的一些训练的小技巧(Trick)。
【论文极速读】 Efficient Net:一种组合扩大卷积网络规模的方法
最近笔者需要基于Efficient Net作为图片编码器进行实验,之前一直没去看原论文,今天抽空去翻了下原论文,简单记下笔记。
【见闻录系列】工作一年总结——复杂度和困难度
从实习开始算起,土豆已经工作一年半了,不过从正式入职的时间来看还不到一年,那么四舍五入下就算个工作一年吧,正好写个工作总结,记录一下心路历程。土豆先后在腾讯,蚂蚁金服和百度三家公司实习过,虽然都是算法工程师岗位,但是三份实习工作的工作内容都不太相同。在腾讯的时候,主要是对一些视频识别&分类的论文进行总结和跟踪,然后在Kinetics数据集上进行复现和一些新方法的探索,在这个期间也总结了一篇比较长的博文《万字长文漫谈视频理解》[1],以及其他一些相关工作的博文[2]...
混合精度训练场景中,对比学习损失函数的一个注意点
笔者在之前的大规模对比学习训练过程(训练CLIP)中,发现在混合精度训练时候,对比学习的交叉熵损失(带温度系数)容易出现的一个小问题,特此笔记下,希望对读者有所帮助。
如何在TensorFlow中使用并行数据加载,解决视频读取问题
在TensorFlow中自带有queue和TFrecord以用为异步并行加载数据,以提高整体系统的性能,但是有些情况下,并不需要或者不能用TFrecord,这个时候,可以手动写一个简单的并行加载数据的框架,可以大大提高系统的性能。