机器学习杂货铺总店


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

【论文极速读】MoCo v3:MoCo机制下Transformer模型的训练不稳定现象

Posted on 2023-02-11 | In 论文极速读
Words count in article: 1.9k 字 | Reading time ≈ 7 分钟

之前笔者在[1]中介绍过MoCo v1模型通过解耦batch size和负样本队列大小,从而实现超大负样本队列的对比学习训练方案;在[2]中我们提到了当前对比学习训练中提高负样本数量的一些方法;在[3]中提到了将MoCo扩展到多模态检索中的方案。在本文,我们介绍下MoCo v3,一种尝试在Transformer模型中引入MoCo机制的方法,并且最重要的,介绍其中作者得到的一些训练的小技巧(Trick)。

Read more »

【论文极速读】 Efficient Net:一种组合扩大卷积网络规模的方法

Posted on 2023-02-11 | In 论文极速读
Words count in article: 1.3k 字 | Reading time ≈ 5 分钟

最近笔者需要基于Efficient Net作为图片编码器进行实验,之前一直没去看原论文,今天抽空去翻了下原论文,简单记下笔记。

Read more »

【论文极速看】 Linformer 线性复杂性的自注意力机制

Posted on 2023-02-11 | In 论文极速读
Words count in article: 594 字 | Reading time ≈ 2 分钟

线性复杂度的Transformer...

Read more »

【见闻录系列】工作一年总结——复杂度和困难度

Posted on 2023-02-11 | In 见闻录系列
Words count in article: 7.1k 字 | Reading time ≈ 24 分钟

从实习开始算起,土豆已经工作一年半了,不过从正式入职的时间来看还不到一年,那么四舍五入下就算个工作一年吧,正好写个工作总结,记录一下心路历程。土豆先后在腾讯,蚂蚁金服和百度三家公司实习过,虽然都是算法工程师岗位,但是三份实习工作的工作内容都不太相同。在腾讯的时候,主要是对一些视频识别&分类的论文进行总结和跟踪,然后在Kinetics数据集上进行复现和一些新方法的探索,在这个期间也总结了一篇比较长的博文《万字长文漫谈视频理解》[1],以及其他一些相关工作的博文[2]...

Read more »

混合精度训练场景中,对比学习损失函数的一个注意点

Posted on 2023-02-09 | In 对比学习
Words count in article: 3.4k 字 | Reading time ≈ 13 分钟

笔者在之前的大规模对比学习训练过程(训练CLIP)中,发现在混合精度训练时候,对比学习的交叉熵损失(带温度系数)容易出现的一个小问题,特此笔记下,希望对读者有所帮助。

Read more »

一文搞懂反卷积,转置卷积

Posted on 2023-01-30 | In 深度学习基础
Words count in article: 2.9k 字 | Reading time ≈ 10 分钟

本文翻译自《Up-sampling with Transposed Convolution》,这篇文章对转置卷积和反卷积有着很好的解释,这里将其翻译为中文,以飨国人。

Read more »

如何在TensorFlow中使用并行数据加载,解决视频读取问题

Posted on 2023-01-30 | In TensorFlow
Words count in article: 1.7k 字 | Reading time ≈ 6 分钟

在TensorFlow中自带有queue和TFrecord以用为异步并行加载数据,以提高整体系统的性能,但是有些情况下,并不需要或者不能用TFrecord,这个时候,可以手动写一个简单的并行加载数据的框架,可以大大提高系统的性能。

Read more »

利用numpy数组保存TensorFlow模型的参数

Posted on 2023-01-30 | In TensorFlow
Words count in article: 511 字 | Reading time ≈ 2 分钟

A little trick...

Read more »

TensorFlow模型的持久化

Posted on 2023-01-30 | In TensorFlow
Words count in article: 1.7k 字 | Reading time ≈ 7 分钟

在TensorFlow中,一旦模型训练完成,就需要对其进行持久化操作,也就是将其保存起来,在需要进行对新样本进行测试时,程序加载已经持久化后的模型。在这个过程中就涉及到了模型的持久化操作,在这里简单分享下自己的所见所学。

Read more »

Effective TensorFlow Chapter 9:TensorFlow模型原型的设计和利用python ops的高级可视化

Posted on 2023-01-20 | In TensorFlow
Words count in article: 943 字 | Reading time ≈ 4 分钟

本文翻译自: 《Prototyping kernels and advanced visualization with Python ops》, 如有侵权请联系删除,仅限于学术交流,请勿商用。如有谬误,请联系指出。

Read more »
上一页1…456…13下一页

124 posts
40 categories
221 tags
RSS
GitHub E-Mail StackOverflow
© 2025 FesianXu
该站点文章共415.8k字,欢迎光临~