CV CUDA在微博多媒体内容理解的应用- 汇维网

一、微博多媒体内容理解的背景介绍

首先和大家分享多媒体内容理解的背景，多媒体内容主要包含视频，音频，图像和文本的理解。在视频的理解里边，有很多非常重要也非常基础的一些工作，比如视频的 embedding 标签，视频的质量，视频的摘要、封面等等。图片的理解同样，图片的理解也是非常重要的，因为在微博的场景里面，图片是占比较大的一类数据。主要的工作包含 embedding 标签，图片 OCR 了，人脸识别。在这一系列的算法层上面，支持了公司非常多的业务。最基本的，比如个性化推荐内容的审核，物料标签版权，视频的指纹，视频拆条等等一系列的业务。

以上就是微博多媒体内容理解的总体的一个结构。

下面会分 4 块的技术的内容做详细说明。

二、视频摘要（Video Summarization）

1、技术背景

视频摘要的主要目的是对于一段相对比较长的视频，采用算法抽取一部分帧，或者一部分连续的帧，也可以是单独的一帧去表达视频。使观看者在看完摘要后能够大致理解视频所要表达的主要内容，一般有两种摘要的方式。

第一种是静态的摘要。这项技术很早之前就有了，最常见的一个应用就是视频的静态封面怎么去抽取，其实就只抽取一帧，这一帧可能会包含了比较丰富的信息。使用户看了这一帧就能大体知道这个视频的内容。比如讲的打篮球还是踢足球。第二种摘要是动态摘要，从视频里边选取一段或者多段连续时间的视频帧作为摘要，这种可以作为物料的审核或者物料的打标。还有个应用是视频的动态封面，比如有一些 APP，它的视频是有这种动态封面的。物料审核主要针对某些涉及政治或者色情的视频，以及版权侵犯的场景等，可能是需要人工去审核。这种场景人工在审核的时候，如果对于原始的视频去简单看一遍，是非常耗时的。先对视频进行一定程度的浓缩，是可以极大的节省人力的。

2、业界做法

（1）dppLSTM（ECCV 2016）

业界之前比较普遍地做法，第一个是 ECCV 2016 的一个方法，这个方法其实它比较早，但是它特别有代表性。这是一个有监督的方式。首先人工去标注这一帧，是不是比较关键的一个帧，以及这一段是不是比较关键的一段。

这个模型的输入是从一个预训练的模型去抽取每一帧的特征向量，然后供两个 LSTM 模型在时间维度上建模，它会算一下当前帧与其他帧的关系。再接一层 MLP，这一层主要会预测当前这一帧它的重要程度，当前这一帧它跟其它帧的相似度。最后再有个模块，基于这两个分数值，去判断当前视频帧的集合里边哪一些是比较重要，哪一些是适合的。

这个方法比较常规的一种做法，需要人工标注，但人工标注其实非常的难，不同的人去标，可能标准很难去统一。第二就是非常耗人力了，对于视频，需要一帧一帧的标注。

（2）SUM-GAN（CVPR’ 2017）

右边这个图是 2017 年的一个方法，它是一种无监督的方式，非常类似于现在比较火的对比学习的技术。

首先这个模型它分成了四大块，sLSTM 模块会给输入的帧打一个重要性分数。这样相当于有了每一帧的向量和重要程度。然后，这个模块会根据重用性的程度把向量去做加权，重新去算向量。生成模块会根据重用性程度加权之后的向量，再去恢复视频的原始向量，然后把恢复的向量跟原始的向量做对比，看恢复得好不好，如果恢复得好，就可以说明帧的重要性算对了。反之就没算对。所以整个过程是一个无监督的过程，因为它是个已知的原始向量去对比的过程。

（3）CSNet（AAAI’ 2018）

视频处理的时候，对于长视频这种以远程的关系建立时间建模，是比较难的一个问题。上面左图是 AAAI’18 年的论文，它的一个侧重点是解决当时间跨度比较长的情况下，怎么去建立帧与帧之间的关系。

首先每一帧向量进来通过 CNN 以后会分成两块，第一块按照它原有的时间顺序切成一个一个的段。第二块在时间维度上，会跳着挑一些帧，比如挑第一帧，第四帧，第八帧，它把 148 放在一块，相当于把不同时间跨度的帧放在一块，这有利于对远程帧的向量的一个感知特性的感知。另外，是类似于 attention 的一个方式。比如这一帧跟第四帧去比一下，跟第八帧去比一下，根据差异性来判断这一帧的重要性，差异大说明重要，类似的话说明不重要。最后就根据 tension 和原始上传的向量去做一个融合，最后再去预测分数。这种方法它主要是解决了长视频的一种建模的方式。

（4）DR-DSN（AAAI’ 2018）

右边这个图也是 2018 年的一篇论文，首先它在原来的基础上能做到无监督。第二个，当时来讲，它的效果是比较好的。

跟前面的方法一样。首先把每一帧都向量化，再做双向的 LSTM 网络。它的不同点在于，把整个训练建模的目标变成了两个。这样做有两个目的，第一个是去度量多样性，最后摘要出来的这一段必须是比较丰富的内容。第二个是选出来这些关键的片段和尾帧是具有代表性的，能够代表原始的视频。这样从比较长的视频，选出来的片段会具有多样性，相互之间重复度是比较低的。其次还能代表原来整个长视频的内容。整个过程不需要任何的监督的信号，所以它是一个无监督方式。

3、微博的工作

前沿的这些做法其实各有各的优点，也各有各的缺点。微博结合我们自己的业务场景，做了我们自己的模型。当然有监督的这种方式我们基本上就不用考虑了，因为太费人力了。无监督的这种方式相对来讲，相对于有监督来讲，它在效果上会有一些差异，会有所降低。但我们在探索怎么样可以在不需要人工标注的情况下，还能做到一个比较好的效果。

下面是微博特定场景里面做模型的一些动机。

在微博多媒体的场景里，事先有视频分类这么一个模型，这个模型它其实抽出的特征是有一定的语义信息的，训练视频分类的时候，标签是一致的。因为微博场景里面有大量的这种数据，所以这个模型是比较容易得到的。当时基于这一点想去虚拟一个弱监督或者无监督的模型。弱监督是因为用视频分类模型去做监督，所以称它为弱监督。这个图就是整个的算法结构。当然这个方法的论文是在 2021 发表的，如果大家感兴趣，可以去仔细地去阅读一下论文。

首先视频会抽成帧，然后每一帧都会去抽到一个向量。之后会使用一个比较常规的算法。比如用一个镜头切割的算法，把视频切割成 5 个镜头或者是 5 个片段，每一段把这一段里的向量做一个平均，得到的向量就代表了这一个片段的特征，这一个代表片段的特征会被放到视频分类的模型里面去，这个模型的作用就是，输入是一串向量，输出是一个向量，并且因为后接一个分类。可以拿分类层的前面特征作为最后的视频的一个表达向量，这样多个镜头通过上面的分类网络，就可以得到唯一的向量。

然后 Summary Generation Sub-network 的部分会根据输入的镜头的向量去做选择，选择一些镜头作为最后的摘要的片段。当然也是采用了潜量的一些做法，用 LSTM 去建立镜头与镜头之间的关系，同时每一个镜头会预测到一个分数，再根据分数去选择一些片段。

那么最后这个片段选得好不好，用一种什么样的方式去衡量呢？这里设计了四种的监督方式。

第一种就是选出来这个片段，仍然送到视频分类网络里面去，这个时候多个镜头向量，最后可以得到一个向量。如果选了这个片段是比较好得到的向量，那么就和所有的片段进去之后，视频分类网络得到的向量是一样的了，或者至少是高度相同的。所以可以把它作为一个基因多信号，在语义层次上，选出的这些片段，能够跟原来整体视频的语义层次是相同的。那么选出来的这些片段，它本身需要一些什么样的约束呢？

第一个，选出来的片段必须有多样性，这一段与另外一段肯定是不同的。如果是相同的，就不需要去重复地选。第二个，它是具有代表性的，原来视频的某一段，可以在选出的片段里面找到一段在语义层次上比较相似的。最后一点就是选出的这些片段在时间上应该是有个约束，不应该让模型在极端的情况下，比如把原来所有的片段都选上，不就是涵盖了所有的语义吗？这样肯定是不需要的，所以加个时间长度的一个约束。最后所有的约束项一共有 4 项，4 项里面后面的三项都是无监督的。第一项是根据视频分类网络的监督信号算出来的，所以总体上不需要去额外的标注一些信息。当然视频分类网络是有监督的，所以这个方法称为一个弱监督的方式。

这种方法在做前向推理的时候，上面视频的分类网络就可以扔掉了，因为那个只是作为训练时候的一个监督信号的来源。来了新的视频之后，就走下面流程，每一帧去抽向量，做镜头的切割，再算镜头向量，再过我们的摘要网络。最后可以得到每一个片段的分数，这一个片段里边我们认为每一帧的分数都是一样的。

上图展示了我们跟有监督和无监督的一些方法去做对比，我们作为一个弱监督的方式，但是跟有监督对比也还是有优势的。跟现有的一些无监督的方式，我们的这种方式性能相对来讲会更好一些。图上下面部分展示了我们当时的方法，跟业界最好的方法做了一个具体的，在视频上做了一个对比。我们看了抽出来的摘要信息，其实更符合，至少更符合我们微博场景对于摘要的一些需求。同时在开源的数据里面，摘出来的片段其实哪怕跟当时最好的方法相比，也是很有优势的。图片最下面是我们论文的地址。

4、具体应用

下面介绍视频摘要在微博的应用，以及在什么样的场景下面去使用。第一个是静态的封面，对于一个长视频，一般会选择比较重要的一帧去作为视频，在没有播放的时候作为一个封面展示在前面。第二个是动态的方面，作为封面，可能在时间的长度上面是有一个约束，比如不能超过 3 秒或者 5 秒，所以动态方面会从整个视频里边去抽，连续一段持续 3 秒的得分数最高的一段去作为动态的封面。第三个应用场景是物料的打标，打一些标签和物料的审核，这样人只要一看摘要，就基本上能够知道这个物料怎么去打标，或者审核过不过。如果有疑虑，再去看原始视频，这样能够大大的提升人工的效率。