【全球新要聞】多模態(tài)算法在視頻理解中的應(yīng)用 <a href="https://www.51cto.com/original.html" target="_blank" class="article-type" data-v-4c84e33c>原創(chuàng)</a>

2022-08-11 15:40:33 來(lái)源：51CTO

1、概述

現(xiàn)階段視頻分類(lèi)算法，主要聚焦于視頻整體的內(nèi)容理解，給視頻整體打上標(biāo)簽，粒度較粗。較少的文章關(guān)注時(shí)序片段的細(xì)粒度理解，同時(shí)也從多模態(tài)角度分析視頻。本文將分享使用多模態(tài)網(wǎng)絡(luò)提高視頻理解精度的解決方案，并在youtube-8m 數(shù)據(jù)集中取得較大提升。

2、相關(guān)工作

在視頻分類(lèi)人物中，NeXtVLAD^[1]被證明是一種高效、快速的視頻分類(lèi)方法。受ResNeXt方法的啟發(fā)，作者成功地將高維的視頻特征向量分解為一組低維向量。該網(wǎng)絡(luò)顯著降低了之前 NetVLAD 網(wǎng)絡(luò)的參數(shù)，但在特征聚合和大規(guī)模視頻分類(lèi)方面仍然取得了顯著的性能。

RNN^[2]已被證明在對(duì)序列數(shù)據(jù)進(jìn)行建模時(shí)表現(xiàn)出色。研究人員通常使用 RNN 對(duì) CNN 網(wǎng)絡(luò)難以捕獲的視頻中的時(shí)間信息進(jìn)行建模。 GRU^[3]是 RNN 架構(gòu)的重要組成部分，可以避免梯度消失的問(wèn)題。 Attention-GRU^[4]指的是具有注意機(jī)制，有助于區(qū)分不同特征對(duì)當(dāng)前預(yù)測(cè)的影響。

(資料圖)

為了結(jié)合視頻任務(wù)的空間特征和時(shí)間特征，后來(lái)又提出了雙流CNN^[5]、3D-CNN^[6]、以及slowfast^[7]和ViViT^[8]等。雖然這些模型在視頻理解任務(wù)上也取得良好的表現(xiàn)，但還有提升的空間。比如，很多方法只針對(duì)單個(gè)模態(tài)，或者只對(duì)整個(gè)視頻進(jìn)行處理，沒(méi)有輸出細(xì)粒度的標(biāo)簽。

3、技術(shù)方案3.1 整體網(wǎng)絡(luò)結(jié)構(gòu)

本技術(shù)方案是旨在充分學(xué)習(xí)視頻多模態(tài)（文本、音頻、圖像）的語(yǔ)義特征，同時(shí)克服 youtube-8m數(shù)據(jù)集樣本極不均衡和半監(jiān)督的問(wèn)題。

如Figure 1所示，整個(gè)網(wǎng)絡(luò)主要由前面混合多模態(tài)網(wǎng)絡(luò)（mix-Multmodal Network）和后面的圖卷積網(wǎng)絡(luò)（GCN^[9]）組成。mix-Multmodal Network 由三個(gè)差異化的多模態(tài)分類(lèi)網(wǎng)絡(luò)構(gòu)成，具體差異化參數(shù)在Table1中。

Figure 1. 整體網(wǎng)絡(luò)結(jié)構(gòu)

	Bert	NeXtVLAD
	Layers	Cluster Size	Reduction
Multimodal Net⁽¹⁾	12	136	16
Multimodal Net⁽³⁾	12	112	16
Multimodal Net⁽³⁾	6	112	8

Table 1. 三個(gè)差異化的 Multimodal Net 的參數(shù)

3.2 多模態(tài)網(wǎng)絡(luò)

如圖Figure 2所示，多模態(tài)網(wǎng)絡(luò)主要理解三個(gè)模態(tài)（文本、視頻、音頻），每個(gè)模態(tài)都包含三個(gè)過(guò)程：基礎(chǔ)語(yǔ)義理解、時(shí)序特征理解、模態(tài)融合。其中，視頻和音頻的語(yǔ)義理解模型分別使用的是EfficientNet^[10]和VGGish，時(shí)序特征理解模型是NextVLAD。而文本的時(shí)序特征理解模型為Bert^[11]。

多模態(tài)特征融合，我們采用的是SENet^[12]。SENet網(wǎng)絡(luò)的前處理需要將各個(gè)模態(tài)的特征長(zhǎng)度強(qiáng)行壓縮對(duì)齊，這樣會(huì)導(dǎo)致信息丟失。為了克服這個(gè)問(wèn)題，我們采用了多Group的SENet的網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)表明，多個(gè)group的SENet網(wǎng)絡(luò)相較于單個(gè)SENet學(xué)習(xí)能力更強(qiáng)。

Figure 2. 多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)

3.3 圖卷積

由于Youtube-8M粗粒度標(biāo)簽全部標(biāo)注，細(xì)粒度標(biāo)簽只標(biāo)注了部分?jǐn)?shù)據(jù)。因此，引入 GCN來(lái)進(jìn)行半監(jiān)督分類(lèi)任務(wù)。基本思想是通過(guò)在節(jié)點(diǎn)之間傳播信息來(lái)更新節(jié)點(diǎn)表示。對(duì)于多標(biāo)簽視頻分類(lèi)任務(wù)，標(biāo)簽依賴(lài)關(guān)系是一個(gè)重要信息。

在我們的任務(wù)中，每個(gè)標(biāo)簽將是圖（graph）的一個(gè)節(jié)點(diǎn)（node），兩個(gè)節(jié)點(diǎn)之間的線表示它們的關(guān)系^[13][14]。所以我們可以訓(xùn)練一個(gè)矩陣來(lái)表示所有節(jié)點(diǎn)的關(guān)系。

以從我們的數(shù)據(jù)集中提取的一個(gè)簡(jiǎn)化的標(biāo)簽相關(guān)圖 Figure 3為例，Label BMW --> Label Car，表示當(dāng) BMW 標(biāo)簽出現(xiàn)時(shí)，Label Car 很可能發(fā)生，但反之則不一定。標(biāo)簽 Car 與所有其他標(biāo)簽具有高度相關(guān)性，沒(méi)有箭頭的標(biāo)簽表示這兩個(gè)標(biāo)簽彼此沒(méi)有關(guān)系。

Figure 3. 標(biāo)簽相關(guān)性示意圖

GCN網(wǎng)絡(luò)實(shí)現(xiàn)如Figure 4所示。GCN模塊由兩層堆疊的GCN（GCN⁽¹⁾和 GCN⁽²⁾）組成，它們有助于學(xué)習(xí)標(biāo)簽相關(guān)圖，以將這些標(biāo)簽表示映射到一組相互依賴(lài)的分類(lèi)器中。是輸入相關(guān)矩陣，由矩陣的值初始化。

和是將在網(wǎng)絡(luò)中訓(xùn)練的矩陣。是GCN學(xué)習(xí)到的分類(lèi)器權(quán)重。

Figure 4. GCN網(wǎng)絡(luò)結(jié)構(gòu)

3.4 標(biāo)簽重加權(quán)

Youtube-8M 視頻分類(lèi)任務(wù)是一個(gè)多標(biāo)簽分類(lèi)任務(wù)，然而，注釋數(shù)據(jù)僅選擇多標(biāo)簽中的一個(gè)進(jìn)行標(biāo)注為1，其余標(biāo)簽均為0。也就是說(shuō)，某一個(gè)視頻片段除了可能是標(biāo)注的還可能是其他置為0的標(biāo)簽。這個(gè)問(wèn)題也是個(gè)弱監(jiān)督問(wèn)題。

針對(duì)此情況，我們提出了一種解決方法。在計(jì)算損失時(shí)給帶注釋的類(lèi)賦予較大的權(quán)重，并為未注釋的類(lèi)賦予較小的權(quán)重^[15]。這種加權(quán)交叉熵方法將幫助模型更好地從不完整的數(shù)據(jù)集中學(xué)習(xí)。

3.5 特征增強(qiáng)

為了避免在訓(xùn)練模型時(shí)過(guò)擬合，我們添加了隨機(jī)生成的高斯噪聲并隨機(jī)注入到輸入特征向量的每個(gè)元素中。

如Figure 6 所示，噪聲將被添加到輸入特征向量中，掩碼向量隨機(jī)選擇 50% 的維度并將值設(shè)置為 1。這里的高斯噪聲是獨(dú)立的，但對(duì)于不同的輸入向量具有相同的分布。

Figure 6. 加高斯噪聲

同時(shí)，為了避免多模態(tài)模型只學(xué)習(xí)某一個(gè)模態(tài)的特征，也就是在模態(tài)上過(guò)擬合。我們將模態(tài)特征也mask，保證輸入中至少有某一個(gè)模態(tài)，如Figure 7所示。這樣就可以充分學(xué)習(xí)各個(gè)模態(tài)。

Figure 7. 模態(tài)Mask

4、實(shí)驗(yàn)4.1 評(píng)價(jià)指標(biāo)4.2 實(shí)驗(yàn)結(jié)果4.2.1 多模態(tài)

為了驗(yàn)證多模態(tài)中每個(gè)模態(tài)的收益，我們做了消融實(shí)驗(yàn)，結(jié)果如Table 2所示。單個(gè)模態(tài)作為特征時(shí)，Video 的準(zhǔn)確率最高，Audio的準(zhǔn)確率最低，Text接近Video。雙模態(tài)時(shí)，Video + Text 由明顯提升，再加上 Audio后，提升有限。

Modal			*MAP@K*
Video	Audio	Text	*MAP@K*
√			69.2
	√		38.1
		√	65.8
√	√		71.3
√		√	73.9
	√	√	70.5
√	√	√	74.6

Table 2. 多模態(tài)消融實(shí)驗(yàn)

4.2.2 圖卷積

同樣為驗(yàn)證GCN的收益，我們也做了對(duì)比實(shí)驗(yàn)，其中閾值λ我們選擇了兩個(gè)，分別是 0.2和0.4。如Table 3 所示，結(jié)果表明，原始模型（org）相比，GCN 生成的分類(lèi)器有助于提高性能，特別時(shí)當(dāng)λ=0.4時(shí)。

Modal	*MAP@K*
org	74.0
+ GCN（λ=0.2）	74.7
+ GCN（λ=0.4）	74.9

Table 3. 圖卷積實(shí)驗(yàn)

4.2.3 差異化的多模態(tài)網(wǎng)絡(luò)

為了驗(yàn)證并聯(lián)的多模態(tài)網(wǎng)絡(luò)和差異化后的效果，我們?cè)O(shè)計(jì)五組實(shí)驗(yàn)。第一組模型是單獨(dú)的1個(gè)多模態(tài)網(wǎng)絡(luò)，第二、三、四組是2個(gè)、3個(gè)、4個(gè)并聯(lián)的多模態(tài)網(wǎng)絡(luò)，第五組是差異化的3個(gè)并聯(lián)的多模態(tài)網(wǎng)絡(luò)。

從結(jié)果來(lái)看，并聯(lián)網(wǎng)絡(luò)能提高精度，但是并聯(lián)4個(gè)以后進(jìn)度會(huì)下降，所以一味的增加并聯(lián)的網(wǎng)絡(luò)數(shù)并不能帶來(lái)收益。同時(shí)，實(shí)驗(yàn)結(jié)果還表明，差異化的網(wǎng)絡(luò)結(jié)構(gòu)能更有效的擬合數(shù)據(jù)。

Modal	*MAP@K*
One Multmodal Net	78.2
Two Multmodal Net	78.6
Three Multmodal Net	78.9
Four Multmodal Net	78.7
Three diff Multmodal Net	79.2

Table 4. 差異化多模態(tài)網(wǎng)絡(luò)實(shí)驗(yàn)

4.2.4 標(biāo)簽重加權(quán)

標(biāo)簽重加權(quán)由兩個(gè)超參（n和m），通過(guò)實(shí)驗(yàn)表明，當(dāng)n=0.1 和m=2.5時(shí)準(zhǔn)確率提高較高。

Modal	*MAP@K*
org	77.8
+ ReWeight(n=0.1, m=2.0)	78.2
+ ReWeight (n=0.1, m=2.5)	78.3
+ ReWeight (n=0.1, m=3.0)	78.1

Table 5. 標(biāo)簽重加權(quán)實(shí)驗(yàn)

4.2.5 特征增強(qiáng)

特征增強(qiáng)屬于數(shù)據(jù)增強(qiáng)的一種。實(shí)驗(yàn)表明，通過(guò)加入高斯噪聲，和mask掉某些模態(tài)，都能提高模型的泛化能力。且此種加入高斯噪聲方式，實(shí)現(xiàn)簡(jiǎn)單，遷移性強(qiáng)，易于再其他網(wǎng)絡(luò)中實(shí)現(xiàn)。

Modal	*MAP@K*
org	81.2
+ Gaussian noises	81.7
+ Gaussian noises + mask Modal	82.1

Table 6. 特征增強(qiáng)實(shí)驗(yàn)

5、總結(jié)

實(shí)驗(yàn)表明，上述幾種方法均有不同程度的提高，尤其以多模態(tài)和圖卷積提升比較明顯。

我們希望在未來(lái)探索更多的標(biāo)簽依賴(lài)關(guān)系。 GCN 網(wǎng)絡(luò)也被證明在這項(xiàng)任務(wù)中很有用，我們認(rèn)為值得我們做更多的實(shí)驗(yàn)，將 GCN 網(wǎng)絡(luò)與其他最先進(jìn)的視頻分類(lèi)網(wǎng)絡(luò)結(jié)合起來(lái)。

引用

[1]. Rongcheng Lin, Jing Xiao, Jianping Fan: NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification.In: ECCV, workshop(2018)

[2]. Jeffrey L Elman. Finding structure in time. Cognitive science,14(2):179–211, 1990

[3]. Kyunghyun Cho, Bart Van Merrienboer, ¨ Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation.arXiv, 2014.

[4]. Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho,and Yoshua Bengio. Attention-based models for speech recognition. In NIPS,pages 577–585, 2015.

[5]. Karen Simonyan, Andrew Zisserman, Two-Stream Convolutional Networks for Action Recognition in Videos. In: NIPS (2014)

[6]. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri Learning Spatiotemporal Features With 3D Convolutional Networks. In:ICCV(2015)

[7]. ??Christoph Feichtenhofer??,??Haoqi Fan??,??Jitendra Malik??,??Kaiming He??,SlowFast Networks for Video Recognition. In: CVPR (2019)?

[8]. Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu?i?,Cordelia Schmid, ViViT: A Video Vision Transformer. In: CVPR (2021)

[9]. Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, Yanwen Guo: Multi-Label Image Recognition with Graph Convolutional Networks. In: CVPR (2019)

[10]. Mingxing Tan, Quoc V. Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, PMLR 97:6105-6114,2019

[11]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova,BERT: Pre-training of deep bidirectional transformers for language understanding. In North American Association for Computational Linguistics (NAACL), 2019

[12]. Jie Hu, Li Shen, Gang Sun, Squeeze-and-Excitation Networks. In: CVPR (2018)?

[13]. Zhang Z,Sabuncu M. Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Advances in neural information processing systems. 2018:8778-8788.

[14]. Pereira R B, Plastino A, Zadrozny B, et al. Correlation analysis of performance measures for multi-label classification [J]. Information Processing & Management, 2018,54(3): 359-369.

[15]. Panchapagesan S, Sun M, Khare A, et al.Multi-Task Learning and Weighted Cross-Entropy for DNN-Based Keyword Spotting[C]. 2016: 760-764.

標(biāo)簽：多模態(tài)算法多模態(tài)網(wǎng)絡(luò)