最近笔者在好奇如何从最底层开始搭建一个深度学习系统,之前都是采用现成的成熟深度学习框架,比如PyTorch
,TensorFlow
等进行模型的搭建,对底层原理了解不是特别深刻。因此笔者最近在阅读darknet的源码,希望能从中学习到一些底层的知识,本文主要是对darknet中常见的数据结构进行记录和分析。
【darknet源码系列-3】 在darknet中,如何根据解析出来的配置进行网络层构建
笔者在[1,2]中已经对darknet
如何进行配置解析进行了讲解,现在我们需要将解析出来的配置进行对应的网络层构建。
【darknet源码系列-2】 darknet源码中的cfg解析
笔者在[1]一文中简单介绍了在darknet
中常见的数据结构,本文继续上文的节奏,介绍如何从cfg
文本文件中解析出整个网络的结构与参数。
视频分析与多模态融合之一,为什么需要多模态融合
在前文《万字长文漫谈视频理解》[1]中,笔者曾经对视频理解中常用的一些技术进行了简单介绍,然而限于篇幅,意犹未尽。在实习工作中,笔者进一步接触了更多视频分析在视频搜索中的一些应用,深感之前对视频分析在业界中应用的理解过于狭隘。本文作为笔者对前文的一个补充,进一步讨论一下视频分析以及其在搜索推荐系统中的一些应用。本文是该系列的第一篇,主要介绍了通用的视频图片语义以及讨论了多模态模型的必要性。
基于图结构的视频理解——组织视频序列的非线性流
我们在之前的博文[1]中曾经花了很长的篇幅介绍了视频理解与表征的一些内容,当然,由于篇幅原因,其实还是省略了很多内容的,特别是一些比较新的研究成果都没能进行介绍,在本文,我们继续我们的视频理解之旅,我们将在本文介绍一种基于图结构的视频理解方法,其可以组织视频序列中一些人为编辑或者镜头切换导致的非线性流,是一项非常有意思的研究。
万字长文漫谈视频理解
AI算法已经渗入到了我们生活的方方面面,无论是购物推荐,广告推送,搜索引擎还是多媒体影音娱乐,都有AI算法的影子。作为多媒体中重要的信息载体,视频的地位可以说是数一数二的,然而目前对于AI算法在视频上的应用还不够成熟,理解视频内容仍然是一个重要的问题亟待解决攻克。
运动的零阶分解与一阶分解以及在图片动画化中的应用 I
最近基于AI的换脸应用非常的火爆,同时也引起了新一轮的网络伦理大讨论。如果光从技术的角度看,对于视频中的人体动作信息,通常可以通过泰勒展开分解成零阶运动信息与一阶运动信息,如文献[1,2]中提到的,动作的分解可以为图片动画化提供很好的光流信息,而图片动画化是提供换脸技术的一个方法。