當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 視頻場(chǎng)景圖生成任務(wù)新SOTA！中山大學(xué)提出全新時(shí)空知識(shí)嵌入框架，登頂刊TIP'24

視頻場(chǎng)景圖生成任務(wù)新SOTA！中山大學(xué)提出全新時(shí)空知識(shí)嵌入框架，登頂刊TIP'24

更新時(shí)間：2024-01-12 15:00:21 | 作者：佚名

原文來(lái)源：新智元圖片來(lái)源：由無(wú)界AI生成 STKET框架將先驗(yàn)時(shí)空知識(shí)納入多頭交叉注意機(jī)制中，從而可以學(xué)習(xí)到更多有代表性的視覺關(guān)系表示，在視頻圖生成基準(zhǔn)上大幅領(lǐng)先其他算法。視頻場(chǎng)景圖生成（VidSGG）旨在識(shí)別視覺場(chǎng)景中的對(duì)象并推斷它們之間的視覺關(guān)系。該任務(wù)不僅需要全面了解分散在整個(gè)場(chǎng)景中的每個(gè)對(duì)象，還需要深入研究它們?cè)跁r(shí)序上的運(yùn)動(dòng)和交互。最近，來(lái)...

原文來(lái)源：新智元

圖片來(lái)源：由無(wú)界 AI生成

STKET框架將先驗(yàn)時(shí)空知識(shí)納入多頭交叉注意機(jī)制中，從而可以學(xué)習(xí)到更多有代表性的視覺關(guān)系表示，在視頻圖生成基準(zhǔn)上大幅領(lǐng)先其他算法。

視頻場(chǎng)景圖生成（VidSGG）旨在識(shí)別視覺場(chǎng)景中的對(duì)象并推斷它們之間的視覺關(guān)系。

該任務(wù)不僅需要全面了解分散在整個(gè)場(chǎng)景中的每個(gè)對(duì)象，還需要深入研究它們?cè)跁r(shí)序上的運(yùn)動(dòng)和交互。

最近，來(lái)自中山大學(xué)的研究人員在人工智能頂級(jí)期刊IEEE T-IP上發(fā)表了一篇論文，進(jìn)行了相關(guān)任務(wù)的探索并發(fā)現(xiàn)：每對(duì)物體組合及其它們之間的關(guān)系在每個(gè)圖像內(nèi)具有空間共現(xiàn)相關(guān)性，并且在不同圖像之間具有時(shí)間一致性/轉(zhuǎn)換相關(guān)性。

論文鏈接：https://arxiv.org/abs/2309.13237

基于這些先驗(yàn)知識(shí)，研究人員提出了一種基于時(shí)空知識(shí)嵌入的Transformer（STKET）將先驗(yàn)時(shí)空知識(shí)納入多頭交叉注意機(jī)制中，從而學(xué)習(xí)更多有代表性的視覺關(guān)系表示。

具體來(lái)說，首先以統(tǒng)計(jì)方式學(xué)習(xí)空間共現(xiàn)和時(shí)間轉(zhuǎn)換相關(guān)性；然后，設(shè)計(jì)了時(shí)空知識(shí)嵌入層對(duì)視覺表示與知識(shí)之間的交互進(jìn)行充分探索，分別生成空間和時(shí)間知識(shí)嵌入的視覺關(guān)系表示；最后，作者聚合這些特征，以預(yù)測(cè)最終的語(yǔ)義標(biāo)簽及其視覺關(guān)系。

大量實(shí)驗(yàn)表明，文中提出的框架大幅優(yōu)于當(dāng)前競(jìng)爭(zhēng)算法。目前，該論文已經(jīng)被接收。

論文概述

隨著場(chǎng)景理解領(lǐng)域的快速發(fā)展，許多研究者們開始嘗試?yán)酶鞣N框架解決場(chǎng)景圖生成（Scene Graph Generation, SGG）任務(wù)，并已取得了不俗的進(jìn)展。

但是，這些方法往往只考慮單張圖像的情況，忽略了時(shí)序中存在著的大量的上下文信息，導(dǎo)致現(xiàn)有大部分場(chǎng)景圖生成算法在無(wú)法準(zhǔn)確地識(shí)別所給定的視頻中包含的動(dòng)態(tài)視覺關(guān)系。

因此，許多研究者致力于開發(fā)視頻場(chǎng)景圖生成（Video Scene Graph Generation, VidSGG）算法來(lái)解決這個(gè)問題。

目前的工作主要關(guān)注從空間和時(shí)間角度聚合對(duì)象級(jí)視覺信息，以學(xué)習(xí)對(duì)應(yīng)的視覺關(guān)系表示。

然而，由于各類物體與交互動(dòng)作的視覺外表方差大以及視頻收集所導(dǎo)致的視覺關(guān)系顯著的長(zhǎng)尾分布，單純的僅用視覺信息容易導(dǎo)致模型預(yù)測(cè)錯(cuò)誤的視覺關(guān)系。

針對(duì)上述問題，研究人員做了以下兩方面的工作：

首先，提出挖掘訓(xùn)練樣本中包含的先驗(yàn)時(shí)空知識(shí)用以促進(jìn)視頻場(chǎng)景圖生成領(lǐng)域。其中，先驗(yàn)時(shí)空知識(shí)包括：

1）空間共現(xiàn)相關(guān)性：某些對(duì)象類別之間的關(guān)系傾向于特定的交互。

2）時(shí)間一致性/轉(zhuǎn)換相關(guān)性：給定對(duì)的關(guān)系在連續(xù)視頻剪輯中往往是一致的，或者很有可能轉(zhuǎn)換到另一個(gè)特定關(guān)系。

其次，提出了一種新穎的基于時(shí)空知識(shí)嵌入的Transformer（Spatial-Temporal Knowledge-Embedded Transformer, STKET）框架。

該框架將先驗(yàn)時(shí)空知識(shí)納入多頭交叉注意機(jī)制中，從而學(xué)習(xí)更多有代表性的視覺關(guān)系表示。根據(jù)在測(cè)試基準(zhǔn)上得到的比較結(jié)果可以發(fā)現(xiàn)，研究人員所提出的STKET框架優(yōu)于以前的最先進(jìn)方法。

圖1：由于視覺外表多變和視覺關(guān)系的長(zhǎng)尾分布，導(dǎo)致視頻場(chǎng)景圖生成充滿挑戰(zhàn)

基于時(shí)空知識(shí)嵌入的Transformer

時(shí)空知識(shí)表示

在推斷視覺關(guān)系時(shí)，人類不僅利用視覺線索，還利用積累的先驗(yàn)知識(shí)[1, 2]。受此啟發(fā)，研究人員提出直接從訓(xùn)練集中提取先驗(yàn)時(shí)空知識(shí)，以促進(jìn)視頻場(chǎng)景圖生成任務(wù)。

其中，空間共現(xiàn)相關(guān)性具體表現(xiàn)為當(dāng)給定物體組合后其視覺關(guān)系分布將高度傾斜（例如，「人」與「杯子」之間的視覺關(guān)系的分布明顯不同于「狗」與「玩具」之間的分布）和時(shí)間轉(zhuǎn)移相關(guān)性具體表現(xiàn)為當(dāng)給定前一時(shí)刻的視覺關(guān)系后各個(gè)視覺關(guān)系的轉(zhuǎn)換概率將大幅變化（例如，當(dāng)已知前一時(shí)刻的視覺關(guān)系為「吃」時(shí)，下一時(shí)刻視覺關(guān)系轉(zhuǎn)移為「書寫」的概率大幅下降）。

如圖2所示，可以直觀地感受到給定物體組合或之前的視覺關(guān)系后，預(yù)測(cè)空間可以被大幅的縮減。

圖2：視覺關(guān)系的空間共現(xiàn)概率[3]與時(shí)間轉(zhuǎn)移概率

具體而言，對(duì)于第i類物體與第j類物體的組合，以及其上一時(shí)刻為第x類關(guān)系的情況，首先通過統(tǒng)計(jì)的方式獲得其對(duì)應(yīng)的空間共現(xiàn)概率矩陣E^{i,j}和時(shí)間轉(zhuǎn)移概率矩陣Ex^{i,j}。

接著，將其輸入到全連接層中得到對(duì)應(yīng)的特征表示，并利用對(duì)應(yīng)的目標(biāo)函數(shù)確保模型所學(xué)到的的知識(shí)表示包含對(duì)應(yīng)的先驗(yàn)時(shí)空知識(shí)。

圖3：學(xué)習(xí)空間（a）和時(shí)間（b）知識(shí)表示的過程

知識(shí)嵌入注意力層

空間知識(shí)通常包含有關(guān)實(shí)體之間的位置、距離和關(guān)系的信息。另一方面，時(shí)間知識(shí)涉及動(dòng)作之間的順序、持續(xù)時(shí)間和間隔。

鑒于它們獨(dú)特的屬性，單獨(dú)處理它們可以允許專門的建模更準(zhǔn)確地捕獲固有模式。

因此，研究人員設(shè)計(jì)了時(shí)空知識(shí)嵌入層，徹底探索視覺表示與時(shí)空知識(shí)之間的相互作用。

圖4：空間（左側(cè)）和時(shí)間（右側(cè)）知識(shí)嵌入層

時(shí)空聚合模塊

如前所述，空間知識(shí)嵌入層探索每個(gè)圖像內(nèi)的空間共現(xiàn)相關(guān)性，時(shí)間知識(shí)嵌入層探索不同圖像之間的時(shí)間轉(zhuǎn)移相關(guān)性，以此充分探索了視覺表示和時(shí)空知識(shí)之間的相互作用。

盡管如此，這兩層忽略了長(zhǎng)時(shí)序的上下文信息，而這對(duì)于識(shí)別大部分動(dòng)態(tài)變化的視覺關(guān)系具有幫助。

為此，研究人員進(jìn)一步設(shè)計(jì)了時(shí)空聚合（STA）模塊來(lái)聚合每個(gè)對(duì)象對(duì)的這些表示，以預(yù)測(cè)最終的語(yǔ)義標(biāo)簽及其關(guān)系。它將不同幀中相同主客體對(duì)的空間和時(shí)間嵌入關(guān)系表示作為輸入。

具體來(lái)說，研究人員將同一對(duì)象對(duì)的這些表示連接起來(lái)以生成上下文表示。

然后，為了在不同幀中找到相同的主客體對(duì)，采用預(yù)測(cè)的對(duì)象標(biāo)簽和IoU（即并集交集）來(lái)匹配幀中檢測(cè)到的相同主客體對(duì)。

最后，考慮到幀中的關(guān)系在不同批次中有不同的表示，選擇滑動(dòng)窗口中最早出現(xiàn)的表示。

實(shí)驗(yàn)結(jié)果

為了全面評(píng)估所提出的框架的性能，研究人員除了對(duì)比現(xiàn)有的視頻場(chǎng)景圖生成方法（STTran, TPI, APT）外，也選取了先進(jìn)的圖像場(chǎng)景圖生成方法（KERN, VCTREE, ReIDN, GPS-Net）進(jìn)行比較。

其中，為確保對(duì)比的公平，圖像場(chǎng)景圖生成方法通過對(duì)每一幀圖像進(jìn)行識(shí)別，從而達(dá)到對(duì)所給定視頻生成對(duì)應(yīng)場(chǎng)景圖的目標(biāo)。

圖5：在Action Genome數(shù)據(jù)集上以Recall為評(píng)價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果

圖6：在Action Genome數(shù)據(jù)集上以mean Recall為評(píng)價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果

參考資料：

[1] A. Vandenbroucke, J. Fahrenfort, J. Meuwese, H. Scholte, V. Lamme, "Prior knowledge about objects determines neural color representation in human visual cortex", in Cerebral cortex 2016.?

[2] T. Chen, W. Yu, R. Chen, and L. Lin, "Knowledge-Embedded Routing Network for Scene Graph Generation", in CVPR 2018.?

[3] R. Zellers, M. Yatskar, S. Thomson, and Y. Choi, "Neural Motifs: Scene Graph Parsing with Global Context", in CVPR 2018.

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。

視頻場(chǎng)景圖生成任務(wù)新SOTA！中山大學(xué)提出全新時(shí)空知識(shí)嵌入框架，登頂刊TIP'24

時(shí)空知識(shí)表示

知識(shí)嵌入注意力層

時(shí)空聚合模塊

實(shí)驗(yàn)結(jié)果

視頻場(chǎng)景圖生成任務(wù)新SOTA！中山大學(xué)提出全新時(shí)空知識(shí)嵌入框架，登頂刊TIP'24