机器学习杂货铺总店


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

DoReMi——一种通过代理模型估计大模型预训练最佳数据配比的方法

Posted on 2025-01-05 | In 大模型预训练
Words count in article: 370k 字 | Reading time ≈ 20:34 分钟

LLM的预训练是决定其底座能力的至关重要的步骤,其预训练数据通常会包含有多种领域的数据,如何调整不同领域的数据配比(可以理解为采样频率)是极其重要的大模型预训练研究点...

Read more »

基于shell的简单好用多进程wrapper

Posted on 2024-12-21 | In linux使用
Words count in article: 3.9k 字 | Reading time ≈ 13 分钟 分钟

基于shell的简单好用多进程wrapper...

Read more »

CatLIP,加速2.7倍!采用分类损失的CLIP水准的预训练视觉编码器

Posted on 2024-11-10 | In 多模态模型
Words count in article: 58k 字 | Reading time ≈ 3:12 分钟

传统的CLIP采用对比学习的方式进行预训练,通常需要汇聚多张节点的多张设备的特征向量以进行打分矩阵的计算,训练速度通常都较慢...

Read more »

利用远程服务器实现内网穿透访问jupyter notebook

Posted on 2024-11-06 | In 深度学习环境搭建
Words count in article: 5.8k 字 | Reading time ≈ 19 分钟 分钟

穿透内网,访问jupyter notebook...

Read more »

pytorch手动实现滑动窗口操作,论fold和unfold函数的使用

Posted on 2024-11-06 | In pytorch使用
Words count in article: 92k 字 | Reading time ≈ 5:05 分钟

pytorch中fold和unfold函数的日常使用方法...

Read more »

rsync 用于远程/本地 文件的拷贝(可以实现差量复制)

Posted on 2024-11-06 | In linux使用
Words count in article: 1.7k 字 | Reading time ≈ 6 分钟 分钟

rsync的基本使用方法...

Read more »

解耦多模态大模型中的视觉语义压缩与视觉语义摘要

Posted on 2024-11-06 | In 多模态大模型
Words count in article: 76k 字 | Reading time ≈ 4:13 分钟

在多模态大模型中,视觉连接器大致可以分为压缩型和非圧缩型,其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中,作者对Q-Former的作用提出了质疑和分析,本文进行笔记,希望对读者有所帮助...

Read more »

Flamingo:一种交织图文的视觉语言大模型方法

Posted on 2024-10-18 | In 多模态大模型
Words count in article: 22k 字 | Reading time ≈ 1:12 分钟

Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节...

Read more »

搜索系统中的Learning To Rank模型:GBRank

Posted on 2024-10-18 | In 统计机器学习
Words count in article: 717k 字 | Reading time ≈ 39:49 分钟

Learning To Rank(LTR)模型是对搜索/计算广告/推荐系统中的排序问题进行模型建模的方法,在当前的搜索系统中有着至关重要的作用...

Read more »

【用户行为学研究】 从用户点击数据中构造隐式反馈

Posted on 2024-10-17 | In 用户行为学
Words count in article: 47k 字 | Reading time ≈ 2:36 分钟

笔者在前文[4]中介绍了LTR模型中常用的GBRank模型,在文章末尾提到了根据用户点击数据构造隐式反馈,从而构建出有序对数据进行训练,因而引出了Skip-Above这个构建隐式反馈的方法,该方法在文章[1]中提出,作者根据翔实的用户行为学实验和分析,得出了包括Skip-Above在内的一系列通过点击信号来构建隐式反馈的方法...

Read more »
上一页123…13下一页

125 posts
40 categories
223 tags
RSS
GitHub E-Mail StackOverflow
© 2026 FesianXu
该站点文章共461k字,欢迎光临~