机器学习杂货铺总店


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

视频与图片检索中的多模态语义匹配模型:原理、启示、应用与展望

Posted on 2023-03-04 | In 多模态模型
Words count in article: 41.9k 字 | Reading time ≈ 154 分钟

三多前笔者在《万字长文漫谈视频理解》[1]一文中,曾经将自己对视频理解的认识进行过简单总结,幸而获得了朋友们的认可,能让读者认可是笔者最为骄傲的成就。现在看来文中观点有不少纰漏狭隘之处,特别是近年来多模态模型的流行,更让视频理解这个方向出现了诸多变革技术,之前在博文《视频分析与多模态融合之一,为什么需要多模态融合》 [2] 曾经尝试对[1]进行补丁,但是限于笔者时间和当时的认识水平,并没有进行展开讨论。本文希望能对近年来的多模态模型进行简单总结,并且简单讨论这些模型在图片搜索和视频搜索这类富媒体检索场景中的应用可能性。

Read more »

【Hadoop Streaming实践系列】 大规模字段提取的实践

Posted on 2023-02-11 | In Hadoop使用
Words count in article: 1.5k 字 | Reading time ≈ 6 分钟

本文介绍如何利用Hadoop Streaming任务进行数以十亿计的大规模字段提取。

Read more »

【论文极速读】MoCo v3:MoCo机制下Transformer模型的训练不稳定现象

Posted on 2023-02-11 | In 论文极速读
Words count in article: 1.9k 字 | Reading time ≈ 7 分钟

之前笔者在[1]中介绍过MoCo v1模型通过解耦batch size和负样本队列大小,从而实现超大负样本队列的对比学习训练方案;在[2]中我们提到了当前对比学习训练中提高负样本数量的一些方法;在[3]中提到了将MoCo扩展到多模态检索中的方案。在本文,我们介绍下MoCo v3,一种尝试在Transformer模型中引入MoCo机制的方法,并且最重要的,介绍其中作者得到的一些训练的小技巧(Trick)。

Read more »

【论文极速读】 Efficient Net:一种组合扩大卷积网络规模的方法

Posted on 2023-02-11 | In 论文极速读
Words count in article: 1.3k 字 | Reading time ≈ 5 分钟

最近笔者需要基于Efficient Net作为图片编码器进行实验,之前一直没去看原论文,今天抽空去翻了下原论文,简单记下笔记。

Read more »

【论文极速看】 Linformer 线性复杂性的自注意力机制

Posted on 2023-02-11 | In 论文极速读
Words count in article: 594 字 | Reading time ≈ 2 分钟

线性复杂度的Transformer...

Read more »

【见闻录系列】工作一年总结——复杂度和困难度

Posted on 2023-02-11 | In 见闻录系列
Words count in article: 7.1k 字 | Reading time ≈ 24 分钟

从实习开始算起,土豆已经工作一年半了,不过从正式入职的时间来看还不到一年,那么四舍五入下就算个工作一年吧,正好写个工作总结,记录一下心路历程。土豆先后在腾讯,蚂蚁金服和百度三家公司实习过,虽然都是算法工程师岗位,但是三份实习工作的工作内容都不太相同。在腾讯的时候,主要是对一些视频识别&分类的论文进行总结和跟踪,然后在Kinetics数据集上进行复现和一些新方法的探索,在这个期间也总结了一篇比较长的博文《万字长文漫谈视频理解》[1],以及其他一些相关工作的博文[2]...

Read more »

混合精度训练场景中,对比学习损失函数的一个注意点

Posted on 2023-02-09 | In 对比学习
Words count in article: 3.4k 字 | Reading time ≈ 13 分钟

笔者在之前的大规模对比学习训练过程(训练CLIP)中,发现在混合精度训练时候,对比学习的交叉熵损失(带温度系数)容易出现的一个小问题,特此笔记下,希望对读者有所帮助。

Read more »

一文搞懂反卷积,转置卷积

Posted on 2023-01-30 | In 深度学习基础
Words count in article: 2.9k 字 | Reading time ≈ 10 分钟

本文翻译自《Up-sampling with Transposed Convolution》,这篇文章对转置卷积和反卷积有着很好的解释,这里将其翻译为中文,以飨国人。

Read more »

如何在TensorFlow中使用并行数据加载,解决视频读取问题

Posted on 2023-01-30 | In TensorFlow
Words count in article: 1.7k 字 | Reading time ≈ 6 分钟

在TensorFlow中自带有queue和TFrecord以用为异步并行加载数据,以提高整体系统的性能,但是有些情况下,并不需要或者不能用TFrecord,这个时候,可以手动写一个简单的并行加载数据的框架,可以大大提高系统的性能。

Read more »

利用numpy数组保存TensorFlow模型的参数

Posted on 2023-01-30 | In TensorFlow
Words count in article: 511 字 | Reading time ≈ 2 分钟

A little trick...

Read more »
上一页1…456…13下一页

126 posts
40 categories
226 tags
RSS
GitHub E-Mail StackOverflow
© 2026 FesianXu
该站点文章共424.3k字,欢迎光临~