現(xiàn)階段視頻分類(lèi)算法,主要聚焦于視頻整體的內(nèi)容理解,給視頻整體打上標(biāo)簽,粒度較粗。較少的文章關(guān)注時(shí)序片段的細(xì)粒度理解,同時(shí)也從多模態(tài)角度分析視頻。本文將分享使用多模態(tài)網(wǎng)絡(luò)提高視頻理解精度的解決方案,并在youtube-8m 數(shù)據(jù)集中取得較大提升。
2、相關(guān)工作在視頻分類(lèi)人物中,NeXtVLAD[1]被證明是一種高效、快速的視頻分類(lèi)方法。受ResNeXt方法的啟發(fā),作者成功地將高維的視頻特征向量分解為一組低維向量。該網(wǎng)絡(luò)顯著降低了之前 NetVLAD 網(wǎng)絡(luò)的參數(shù),但在特征聚合和大規(guī)模視頻分類(lèi)方面仍然取得了顯著的性能。
RNN[2]已被證明在對(duì)序列數(shù)據(jù)進(jìn)行建模時(shí)表現(xiàn)出色。研究人員通常使用 RNN 對(duì) CNN 網(wǎng)絡(luò)難以捕獲的視頻中的時(shí)間信息進(jìn)行建模。 GRU[3]是 RNN 架構(gòu)的重要組成部分,可以避免梯度消失的問(wèn)題。 Attention-GRU[4]指的是具有注意機(jī)制,有助于區(qū)分不同特征對(duì)當(dāng)前預(yù)測(cè)的影響。
(資料圖)
為了結(jié)合視頻任務(wù)的空間特征和時(shí)間特征,后來(lái)又提出了雙流CNN[5]、3D-CNN[6]、以及slowfast[7]和ViViT[8]等。雖然這些模型在視頻理解任務(wù)上也取得良好的表現(xiàn),但還有提升的空間。比如,很多方法只針對(duì)單個(gè)模態(tài),或者只對(duì)整個(gè)視頻進(jìn)行處理,沒(méi)有輸出細(xì)粒度的標(biāo)簽。
3、技術(shù)方案3.1 整體網(wǎng)絡(luò)結(jié)構(gòu)本技術(shù)方案是旨在充分學(xué)習(xí)視頻多模態(tài)(文本、音頻、圖像)的語(yǔ)義特征,同時(shí)克服 youtube-8m數(shù)據(jù)集樣本極不均衡和半監(jiān)督的問(wèn)題。
如Figure 1所示,整個(gè)網(wǎng)絡(luò)主要由前面混合多模態(tài)網(wǎng)絡(luò)(mix-Multmodal Network)和后面的圖卷積網(wǎng)絡(luò)(GCN[9])組成。mix-Multmodal Network 由三個(gè)差異化的多模態(tài)分類(lèi)網(wǎng)絡(luò)構(gòu)成,具體差異化參數(shù)在Table1中。
Figure 1. 整體網(wǎng)絡(luò)結(jié)構(gòu)
Bert | NeXtVLAD | ||
Layers | Cluster Size | Reduction | |
Multimodal Net(1) | 12 | 136 | 16 |
Multimodal Net(3) | 12 | 112 | 16 |
Multimodal Net(3) | 6 | 112 | 8 |
Table 1. 三個(gè)差異化的 Multimodal Net 的參數(shù)
3.2 多模態(tài)網(wǎng)絡(luò)如圖Figure 2所示,多模態(tài)網(wǎng)絡(luò)主要理解三個(gè)模態(tài)(文本、視頻、音頻),每個(gè)模態(tài)都包含三個(gè)過(guò)程:基礎(chǔ)語(yǔ)義理解、時(shí)序特征理解、模態(tài)融合。其中,視頻和音頻的語(yǔ)義理解模型分別使用的是EfficientNet[10]和VGGish,時(shí)序特征理解模型是NextVLAD。而文本的時(shí)序特征理解模型為Bert[11]。
多模態(tài)特征融合,我們采用的是SENet[12]。SENet網(wǎng)絡(luò)的前處理需要將各個(gè)模態(tài)的特征長(zhǎng)度強(qiáng)行壓縮對(duì)齊,這樣會(huì)導(dǎo)致信息丟失。為了克服這個(gè)問(wèn)題,我們采用了多Group的SENet的網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)表明,多個(gè)group的SENet網(wǎng)絡(luò)相較于單個(gè)SENet學(xué)習(xí)能力更強(qiáng)。
Figure 2. 多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)
3.3 圖卷積由于Youtube-8M粗粒度標(biāo)簽全部標(biāo)注,細(xì)粒度標(biāo)簽只標(biāo)注了部分?jǐn)?shù)據(jù)。因此,引入 GCN來(lái)進(jìn)行半監(jiān)督分類(lèi)任務(wù)。基本思想是通過(guò)在節(jié)點(diǎn)之間傳播信息來(lái)更新節(jié)點(diǎn)表示。對(duì)于多標(biāo)簽視頻分類(lèi)任務(wù),標(biāo)簽依賴(lài)關(guān)系是一個(gè)重要信息。
在我們的任務(wù)中,每個(gè)標(biāo)簽將是圖(graph)的一個(gè)節(jié)點(diǎn)(node),兩個(gè)節(jié)點(diǎn)之間的線表示它們的關(guān)系[13][14]。所以我們可以訓(xùn)練一個(gè)矩陣來(lái)表示所有節(jié)點(diǎn)的關(guān)系。
以從我們的數(shù)據(jù)集中提取的一個(gè)簡(jiǎn)化的標(biāo)簽相關(guān)圖 Figure 3為例,Label BMW --> Label Car,表示當(dāng) BMW 標(biāo)簽出現(xiàn)時(shí),Label Car 很可能發(fā)生,但反之則不一定。標(biāo)簽 Car 與所有其他標(biāo)簽具有高度相關(guān)性,沒(méi)有箭頭的標(biāo)簽表示這兩個(gè)標(biāo)簽彼此沒(méi)有關(guān)系。
Figure 3. 標(biāo)簽相關(guān)性示意圖
GCN網(wǎng)絡(luò)實(shí)現(xiàn)如Figure 4所示。GCN模塊由兩層堆疊的GCN(GCN(1) 和 GCN(2))組成,它們有助于學(xué)習(xí)標(biāo)簽相關(guān)圖,以將這些標(biāo)簽表示映射到一組相互依賴(lài)的分類(lèi)器中。是輸入相關(guān)矩陣,由矩陣的值初始化。
和是將在網(wǎng)絡(luò)中訓(xùn)練的矩陣。是GCN學(xué)習(xí)到的分類(lèi)器權(quán)重。
Figure 4. GCN網(wǎng)絡(luò)結(jié)構(gòu)
3.4 標(biāo)簽重加權(quán)Youtube-8M 視頻分類(lèi)任務(wù)是一個(gè)多標(biāo)簽分類(lèi)任務(wù),然而,注釋數(shù)據(jù)僅選擇多標(biāo)簽中的一個(gè)進(jìn)行標(biāo)注為1,其余標(biāo)簽均為0。也就是說(shuō),某一個(gè)視頻片段除了可能是標(biāo)注的還可能是其他置為0的標(biāo)簽。這個(gè)問(wèn)題也是個(gè)弱監(jiān)督問(wèn)題。
針對(duì)此情況,我們提出了一種解決方法。在計(jì)算損失時(shí)給帶注釋的類(lèi)賦予較大的權(quán)重,并為未注釋的類(lèi)賦予較小的權(quán)重[15]。這種加權(quán)交叉熵方法將幫助模型更好地從不完整的數(shù)據(jù)集中學(xué)習(xí)。
3.5 特征增強(qiáng)為了避免在訓(xùn)練模型時(shí)過(guò)擬合,我們添加了隨機(jī)生成的高斯噪聲并隨機(jī)注入到輸入特征向量的每個(gè)元素中。
如Figure 6 所示,噪聲將被添加到輸入特征向量中,掩碼向量隨機(jī)選擇 50% 的維度并將值設(shè)置為 1。這里的高斯噪聲是獨(dú)立的,但對(duì)于不同的輸入向量具有相同的分布。
Figure 6. 加高斯噪聲
同時(shí),為了避免多模態(tài)模型只學(xué)習(xí)某一個(gè)模態(tài)的特征,也就是在模態(tài)上過(guò)擬合。我們將模態(tài)特征也mask,保證輸入中至少有某一個(gè)模態(tài),如Figure 7所示。這樣就可以充分學(xué)習(xí)各個(gè)模態(tài)。
Figure 7. 模態(tài)Mask
4、實(shí)驗(yàn)4.1 評(píng)價(jià)指標(biāo)4.2 實(shí)驗(yàn)結(jié)果4.2.1 多模態(tài)為了驗(yàn)證多模態(tài)中每個(gè)模態(tài)的收益,我們做了消融實(shí)驗(yàn),結(jié)果如Table 2所示。單個(gè)模態(tài)作為特征時(shí),Video 的準(zhǔn)確率最高,Audio的準(zhǔn)確率最低,Text接近Video。雙模態(tài)時(shí),Video + Text 由明顯提升,再加上 Audio后,提升有限。
Modal | MAP@K | ||
Video | Audio | Text | |
√ | 69.2 | ||
√ | 38.1 | ||
√ | 65.8 | ||
√ | √ | 71.3 | |
√ | √ | 73.9 | |
√ | √ | 70.5 | |
√ | √ | √ | 74.6 |
Table 2. 多模態(tài)消融實(shí)驗(yàn)
4.2.2 圖卷積同樣為驗(yàn)證GCN的收益,我們也做了對(duì)比實(shí)驗(yàn),其中閾值λ我們選擇了兩個(gè),分別是 0.2和0.4。如Table 3 所示,結(jié)果表明,原始模型(org)相比,GCN 生成的分類(lèi)器有助于提高性能,特別時(shí)當(dāng)λ=0.4時(shí)。
Modal | MAP@K |
org | 74.0 |
+ GCN(λ=0.2) | 74.7 |
+ GCN(λ=0.4) | 74.9 |
Table 3. 圖卷積實(shí)驗(yàn)
4.2.3 差異化的多模態(tài)網(wǎng)絡(luò)為了驗(yàn)證并聯(lián)的多模態(tài)網(wǎng)絡(luò)和差異化后的效果,我們?cè)O(shè)計(jì)五組實(shí)驗(yàn)。第一組模型是單獨(dú)的1個(gè)多模態(tài)網(wǎng)絡(luò),第二、三、四組是2個(gè)、3個(gè)、4個(gè)并聯(lián)的多模態(tài)網(wǎng)絡(luò),第五組是差異化的3個(gè)并聯(lián)的多模態(tài)網(wǎng)絡(luò)。
從結(jié)果來(lái)看,并聯(lián)網(wǎng)絡(luò)能提高精度,但是并聯(lián)4個(gè)以后進(jìn)度會(huì)下降,所以一味的增加并聯(lián)的網(wǎng)絡(luò)數(shù)并不能帶來(lái)收益。同時(shí),實(shí)驗(yàn)結(jié)果還表明,差異化的網(wǎng)絡(luò)結(jié)構(gòu)能更有效的擬合數(shù)據(jù)。
Modal | MAP@K |
One Multmodal Net | 78.2 |
Two Multmodal Net | 78.6 |
Three Multmodal Net | 78.9 |
Four Multmodal Net | 78.7 |
Three diff Multmodal Net | 79.2 |
Table 4. 差異化多模態(tài)網(wǎng)絡(luò)實(shí)驗(yàn)
4.2.4 標(biāo)簽重加權(quán)標(biāo)簽重加權(quán)由兩個(gè)超參(n和m),通過(guò)實(shí)驗(yàn)表明,當(dāng)n=0.1 和m=2.5時(shí)準(zhǔn)確率提高較高。
Modal | MAP@K |
org | 77.8 |
+ ReWeight(n=0.1, m=2.0) | 78.2 |
+ ReWeight (n=0.1, m=2.5) | 78.3 |
+ ReWeight (n=0.1, m=3.0) | 78.1 |
Table 5. 標(biāo)簽重加權(quán)實(shí)驗(yàn)
4.2.5 特征增強(qiáng)特征增強(qiáng)屬于數(shù)據(jù)增強(qiáng)的一種。實(shí)驗(yàn)表明,通過(guò)加入高斯噪聲,和mask掉某些模態(tài),都能提高模型的泛化能力。且此種加入高斯噪聲方式,實(shí)現(xiàn)簡(jiǎn)單,遷移性強(qiáng),易于再其他網(wǎng)絡(luò)中實(shí)現(xiàn)。
Modal | MAP@K |
org | 81.2 |
+ Gaussian noises | 81.7 |
+ Gaussian noises + mask Modal | 82.1 |
Table 6. 特征增強(qiáng)實(shí)驗(yàn)
5、總結(jié)實(shí)驗(yàn)表明,上述幾種方法均有不同程度的提高,尤其以多模態(tài)和圖卷積提升比較明顯。
我們希望在未來(lái)探索更多的標(biāo)簽依賴(lài)關(guān)系。 GCN 網(wǎng)絡(luò)也被證明在這項(xiàng)任務(wù)中很有用,我們認(rèn)為值得我們做更多的實(shí)驗(yàn),將 GCN 網(wǎng)絡(luò)與其他最先進(jìn)的視頻分類(lèi)網(wǎng)絡(luò)結(jié)合起來(lái)。
引用[1]. Rongcheng Lin, Jing Xiao, Jianping Fan: NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification.In: ECCV, workshop(2018)
[2]. Jeffrey L Elman. Finding structure in time. Cognitive science,14(2):179–211, 1990
[3]. Kyunghyun Cho, Bart Van Merrienboer, ¨ Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation.arXiv, 2014.
[4]. Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho,and Yoshua Bengio. Attention-based models for speech recognition. In NIPS,pages 577–585, 2015.
[5]. Karen Simonyan, Andrew Zisserman, Two-Stream Convolutional Networks for Action Recognition in Videos. In: NIPS (2014)
[6]. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri Learning Spatiotemporal Features With 3D Convolutional Networks. In:ICCV(2015)
[7]. ??Christoph Feichtenhofer??,??Haoqi Fan??,??Jitendra Malik??,??Kaiming He??,SlowFast Networks for Video Recognition. In: CVPR (2019)?
[8]. Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu?i?,Cordelia Schmid, ViViT: A Video Vision Transformer. In: CVPR (2021)
[9]. Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, Yanwen Guo: Multi-Label Image Recognition with Graph Convolutional Networks. In: CVPR (2019)
[10]. Mingxing Tan, Quoc V. Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, PMLR 97:6105-6114,2019
[11]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova,BERT: Pre-training of deep bidirectional transformers for language understanding. In North American Association for Computational Linguistics (NAACL), 2019
[12]. Jie Hu, Li Shen, Gang Sun, Squeeze-and-Excitation Networks. In: CVPR (2018)?
[13]. Zhang Z,Sabuncu M. Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Advances in neural information processing systems. 2018:8778-8788.
[14]. Pereira R B, Plastino A, Zadrozny B, et al. Correlation analysis of performance measures for multi-label classification [J]. Information Processing & Management, 2018,54(3): 359-369.
[15]. Panchapagesan S, Sun M, Khare A, et al.Multi-Task Learning and Weighted Cross-Entropy for DNN-Based Keyword Spotting[C]. 2016: 760-764.
標(biāo)簽: 多模態(tài)算法 多模態(tài)網(wǎng)絡(luò)
- 【全球新要聞】多模態(tài)算法在視頻理解中的應(yīng)用 原創(chuàng)
- 天天熱推薦:智能家庭需要更智能的Wi-Fi
- 每日頭條!瑞數(shù)信息再次入選Gartner《2022年中國(guó)ICT技術(shù)成熟度曲線報(bào)告》云安全示例廠商
- 惠普星14Pro升級(jí)惠小微智能語(yǔ)音助手 讓辦公更高效
- 速遞!以太網(wǎng)分離器會(huì)降低網(wǎng)速嗎?
- 每日消息!溫度補(bǔ)償:補(bǔ)償?shù)钠鋵?shí)不是溫度?
- 當(dāng)前播報(bào):詳解:什么是網(wǎng)絡(luò)交換機(jī)?
- 全球速看:我敢打賭,看完這個(gè)故事,你一定能搞懂“算力網(wǎng)絡(luò)”……
- 華碩全新打造的無(wú)雙輕薄本 配備英特爾12代酷睿H標(biāo)壓處理器
- 今熱點(diǎn):什么是Flink網(wǎng)絡(luò)棧?























