利用远程服务器实现内网穿透访问jupyter notebook

Posted on 2024-11-06 | In 深度学习环境搭建

Words count in article: 5.8k 字 | Reading time ≈ 21 mins. 分钟

穿透内网，访问jupyter notebook...

pytorch手动实现滑动窗口操作，论fold和unfold函数的使用

Posted on 2024-11-06 | In pytorch使用

Words count in article: 92k 字 | Reading time ≈ 5:33 分钟

pytorch中fold和unfold函数的日常使用方法...

rsync 用于远程/本地文件的拷贝（可以实现差量复制）

Posted on 2024-11-06 | In linux使用

Words count in article: 1.7k 字 | Reading time ≈ 6 mins. 分钟

rsync的基本使用方法...

解耦多模态大模型中的视觉语义压缩与视觉语义摘要

Posted on 2024-11-06 | In 多模态大模型

Words count in article: 76k 字 | Reading time ≈ 4:36 分钟

在多模态大模型中，视觉连接器大致可以分为压缩型和非圧缩型，其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中，作者对Q-Former的作用提出了质疑和分析，本文进行笔记，希望对读者有所帮助...

Flamingo：一种交织图文的视觉语言大模型方法

Posted on 2024-10-18 | In 多模态大模型

Words count in article: 22k 字 | Reading time ≈ 1:18 分钟

Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了（2022年），之前粗略读过没来得及及时总结，本次过年笔者重新细读了论文，发现其在50多页的论文中有着不少细节...

搜索系统中的Learning To Rank模型：GBRank

Posted on 2024-10-18 | In 统计机器学习

Words count in article: 717k 字 | Reading time ≈ 43:26 分钟

Learning To Rank(LTR)模型是对搜索/计算广告/推荐系统中的排序问题进行模型建模的方法，在当前的搜索系统中有着至关重要的作用...

【用户行为学研究】从用户点击数据中构造隐式反馈

Posted on 2024-10-17 | In 用户行为学

Words count in article: 47k 字 | Reading time ≈ 2:50 分钟

笔者在前文[4]中介绍了LTR模型中常用的GBRank模型，在文章末尾提到了根据用户点击数据构造隐式反馈，从而构建出有序对数据进行训练，因而引出了Skip-Above这个构建隐式反馈的方法，该方法在文章[1]中提出，作者根据翔实的用户行为学实验和分析，得出了包括Skip-Above在内的一系列通过点击信号来构建隐式反馈的方法...

Alignment与Correspondence，用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法

Posted on 2024-10-15 | In 多模态大模型

Words count in article: 163k 字 | Reading time ≈ 9:54 分钟

在多模态大模型（Multimodal Large Language Model， MLLM）中，视觉特征就像是人的眼睛，而底座的LLM则像是人的大脑，合适的视觉特征的选择通常都是一个MLLM成功的重要一步...

SigLIP——采用sigmoid损失的图文预训练方式

Posted on 2024-09-08 | In 多模态模型

Words count in article: 286k 字 | Reading time ≈ 17:19 分钟

CLIP中的infoNCE损失是一种对比性损失，在SigLIP这个工作中，作者提出采用非对比性的sigmoid损失，能够更高效地进行图文预训练...

LexLIP——图片搜索中的多模态稀疏化召回方法

Posted on 2024-07-28 | In 多模态检索

Words count in article: 460k 字 | Reading time ≈ 27:53 分钟

最近笔者在回顾&笔记一些老论文，准备整理下之前看的一篇论文LexLIP，其很适合在真实的图片搜索业务场景中落地，希望笔记能给读者带来启发。