深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetworks,DNNs)由于跨域不匹配(cross-domain mismatch),通常在新域表現(xiàn)不佳。而無監(jiān)督域自適應(yīng)(UDA)技術(shù)則可通過利用未標(biāo)記的目標(biāo)域樣本緩解跨域不匹配問題。近日,特斯聯(lián)科技集團(tuán)首席科學(xué)家、特斯聯(lián)國(guó)際總裁邵嶺博士及合作者們提出了基于類別對(duì)比的新穎方法Category Contrast(CaCo),并公布了所取得的最新研究成果。該方法在視覺UDA任務(wù)的實(shí)例判別之上引入了語(yǔ)義先驗(yàn)。該研究成果(標(biāo)題為:Category Contrast for Unsupervised Domain Adaptation in Visual Tasks)已被今年的AI頂會(huì)CVPR(國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議)收錄。
通過將實(shí)例對(duì)比學(xué)習(xí)視為字典查詢操作,團(tuán)隊(duì)利用源域和目標(biāo)域的樣本構(gòu)建了一個(gè)類別感知(category-aware)和域混合(domain-mixed)的字典,其中每個(gè)目標(biāo)樣本會(huì)根據(jù)源域樣本的類別先驗(yàn)被分配一個(gè)(偽)類別標(biāo)簽,并為UDA提供了相應(yīng)的類別對(duì)比損失(category contrastive loss)。由此鼓勵(lì)學(xué)習(xí)完全契合UDA目標(biāo)的,具有類別判別力但域不變的(category-discriminative yet domain-invariant)表征:同類別樣本(無論是來自于源域或者目標(biāo)域)的距離被拉得更近的同時(shí)不同類別樣本的距離會(huì)被推遠(yuǎn)。在多種視覺任務(wù)(例如分割、分類和檢測(cè))中進(jìn)行的大量實(shí)驗(yàn)表明CaCo實(shí)現(xiàn)了與當(dāng)前最先進(jìn)的算法相比更卓越的性能。此外,實(shí)驗(yàn)也顯示CaCo可以作為現(xiàn)有UDA方法的補(bǔ)充,并可推廣到其它的學(xué)習(xí)方法中,如無監(jiān)督模型適應(yīng)、開放/半開放集域自適應(yīng)等。
無監(jiān)督域自適應(yīng)緩解跨域不匹配
無監(jiān)督域自適應(yīng)(UDA)的目的在于通過利用未標(biāo)記的目標(biāo)域樣本減少輕跨域不匹配問題的影響。為了實(shí)現(xiàn)這一目的,科研工作者們針對(duì)目標(biāo)域樣本設(shè)計(jì)了不同的無監(jiān)督訓(xùn)練目標(biāo)函數(shù),以在目標(biāo)域中訓(xùn)練出一個(gè)性能良好的模型?,F(xiàn)有的無監(jiān)督損失可以大致分為三類1)對(duì)抗性損失函數(shù)(adversarial loss):迫使模型學(xué)習(xí)類似源域的目標(biāo)表征;2)圖像轉(zhuǎn)換損失函數(shù)(image translation loss),將源圖像轉(zhuǎn)換為具有類似目標(biāo)的樣式和外觀;3)自訓(xùn)練損失(self-training loss),用置信度較高的偽標(biāo)記樣本迭代地重新訓(xùn)練網(wǎng)絡(luò)。
無監(jiān)督表征學(xué)習(xí)解決了一個(gè)相關(guān)問題,即無監(jiān)督網(wǎng)絡(luò)預(yù)訓(xùn)練,旨在從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)有判別力的嵌入。近年來,實(shí)例對(duì)比學(xué)習(xí)在無監(jiān)督表征學(xué)習(xí)方面取得了重大進(jìn)展。盡管動(dòng)機(jī)不同,實(shí)例對(duì)比方法可以被看作是一種字典查詢式任務(wù),通過將編碼查詢(encoded query)q與由多個(gè)編碼鍵(encoded keys)k構(gòu)成的字典匹配來訓(xùn)練視覺編碼器:編碼查詢應(yīng)與編碼的正鍵(encoded positive keys)相似,而與編碼的負(fù)鍵(encoded negative keys)相異。由于沒有可用于未標(biāo)記數(shù)據(jù)的標(biāo)簽,正鍵通常是查詢樣本的隨機(jī)增強(qiáng)版本,而所有其他樣本都被視為負(fù)鍵。
在這樣的背景下,邵嶺博士及團(tuán)隊(duì)探究了UDA中實(shí)例對(duì)比的概念。在把對(duì)比學(xué)習(xí)看作字典查詢?nèi)蝿?wù)的基礎(chǔ)上,團(tuán)隊(duì)假設(shè)UDA字典應(yīng)該是類別感知的(category-aware),并且應(yīng)該與來自源域和目標(biāo)域的鍵進(jìn)行域混合(domain-mixed)。直觀來說,一個(gè)包含類別平衡鍵(category-balanced keys)的可感知類別的字典可以促進(jìn)學(xué)習(xí)類別判別力(category-discriminative)但類別無偏的(category-unbiased)表征,而來自源域和目標(biāo)域的鍵將允許學(xué)習(xí)兩個(gè)域內(nèi)和跨域的不變表征,這兩點(diǎn)都與UDA的目標(biāo)相符。
以類別對(duì)比方法構(gòu)建具有類別感知和域混合的字典
團(tuán)隊(duì)提出,用類別對(duì)比方法(CaCo)來構(gòu)建具有類別感知和域混合的字典,并為UDA提供相應(yīng)的對(duì)比損失函數(shù)。如圖1所示,該字典包含在類別和域中均勻采樣的鍵,其中每個(gè)目標(biāo)鍵都有一個(gè)預(yù)測(cè)的偽類別。以說明性字典K={
(相關(guān)資料圖)
}1≤c≤C,1≤m≤M為例。每個(gè)類別c都含有M個(gè)鍵而每個(gè)域含有(C×M)/2個(gè)鍵。
圖1
圖 1中,團(tuán)隊(duì)提出的類別對(duì)比方法通過類別對(duì)比損失函數(shù)
將查詢q(來自未標(biāo)記的目標(biāo)樣本
)與由鍵組成的字典相匹配,來訓(xùn)練一個(gè)無監(jiān)督域自適應(yīng)編碼器。字典鍵來自源域
(圖中紅字,帶標(biāo)簽)和目標(biāo)域
(圖中藍(lán)字,帶偽標(biāo)簽)的域混合,這樣可以學(xué)習(xí)域內(nèi)和跨域的不變表征。這些鍵也是類別感知和類別平衡的,這樣可以學(xué)習(xí)類別具有類別區(qū)分力的但無偏的表征。注意類別平衡指每個(gè)查詢q與字典中的所有鍵(在損失計(jì)算中)相比較,這些字典鍵均勻分布在所有的數(shù)據(jù)類別中,緩解了數(shù)據(jù)不平衡。
因此,網(wǎng)絡(luò)學(xué)習(xí)將努力最小化目標(biāo)查詢和字典鍵之間的類別對(duì)比損失
:相同類別的樣本被拉近而不同類別的樣本被推遠(yuǎn)。這自然會(huì)產(chǎn)生完全符合UDA目標(biāo)的,具有類別判別力的但域不變的表征。
在類別感知和域混合字典以及類別對(duì)比損失函數(shù)的應(yīng)用下,所提出的類別對(duì)比通過三個(gè)理想的特征來解決UDA挑戰(zhàn):1)利用類別感知字典設(shè)計(jì),同時(shí)最小化類別內(nèi)變化并最大化類別間距離;2)依靠同時(shí)包含源域樣本和目標(biāo)域樣本的混合域字典設(shè)計(jì)同時(shí)實(shí)現(xiàn)了域間和域內(nèi)對(duì)齊;3)依靠類別平衡字典設(shè)計(jì)有效緩解了數(shù)據(jù)平衡問題,使得在學(xué)習(xí)過程中均勻計(jì)算所有類別的對(duì)比損失。
大量實(shí)驗(yàn)結(jié)果表明類別對(duì)比方法展現(xiàn)優(yōu)異性能
團(tuán)隊(duì)分享了其實(shí)驗(yàn)結(jié)果,分為以下幾個(gè)維度。
泛化能力:團(tuán)隊(duì)通過評(píng)估CaCo在多個(gè)基礎(chǔ)視覺UDA應(yīng)用,即分割、檢測(cè)和分類,中的性能效果來研究它的泛化能力。實(shí)驗(yàn)結(jié)果顯示CaCo始終展現(xiàn)出了與當(dāng)前最先進(jìn)的方法相當(dāng)?shù)男阅堋?/p>
互補(bǔ)能力:團(tuán)隊(duì)探究了CaCo與現(xiàn)有的UDA方法相結(jié)合的協(xié)同優(yōu)勢(shì)。這表明當(dāng)加入CaCo時(shí),可以在不同的視覺任務(wù)中一致地改進(jìn)所有現(xiàn)有方法。
與現(xiàn)有的無監(jiān)督表征學(xué)習(xí)方法對(duì)比:團(tuán)隊(duì)將CaCo與無監(jiān)督表征學(xué)習(xí)方法用于UDA任務(wù)以進(jìn)行對(duì)比。大多數(shù)現(xiàn)有的方法通過某些前置任務(wù)實(shí)現(xiàn)了無監(jiān)督表征學(xué)習(xí),比如說實(shí)例對(duì)比學(xué)習(xí)、圖像塊排序(patch ordering)、旋轉(zhuǎn)預(yù)測(cè)和降噪/上下文/著色自編碼器。在UDA任務(wù)GTA→Cityscapes上進(jìn)行的實(shí)驗(yàn)顯示了現(xiàn)有的無監(jiān)督表征學(xué)習(xí)應(yīng)用于UDA任務(wù)時(shí)效果不理想。主要原因是這些方法是針對(duì)學(xué)習(xí)可用于判別實(shí)例的表征(instance-discriminative representations)而設(shè)計(jì)的,并沒有考慮到語(yǔ)義先驗(yàn)和域間隙(domain gaps)。CaCo也被用于進(jìn)行無監(jiān)督學(xué)習(xí),應(yīng)用于UDA時(shí)更有效,很大程度上是因其學(xué)習(xí)了具有類別判別力且域不變的表征,而這些表征對(duì)于多種視覺UDA任務(wù)是至關(guān)重要的。
參數(shù)研究:參數(shù)M(在提出的CaCo中)控制了分類別字典的長(zhǎng)度(或者說大小)。團(tuán)隊(duì)將M從50逐漸調(diào)至150,對(duì)其進(jìn)行了研究。在UDA分割任務(wù)GTA-to-Cityscapes上進(jìn)行的實(shí)驗(yàn)顯示了M在50至150之間進(jìn)行調(diào)整時(shí),對(duì)UDA的影響并不明顯。
不同學(xué)習(xí)類型中的泛化:團(tuán)隊(duì)從學(xué)習(xí)類型的角度研究了所提出的CaCo的可擴(kuò)展性。具體而言,團(tuán)隊(duì)把CaCo應(yīng)用于多種涉及無標(biāo)簽數(shù)據(jù)學(xué)習(xí)和某些語(yǔ)義先驗(yàn)的任務(wù),如無監(jiān)督模型自適應(yīng)和半開放集/開放集UDA,并對(duì)其進(jìn)行評(píng)估。結(jié)果顯示CaCo的可以穩(wěn)健展現(xiàn)與當(dāng)前最先進(jìn)的方法相當(dāng)?shù)男阅堋?/p>
類別感知字典:團(tuán)隊(duì)研究了提出的類別感知字典的3種變體設(shè)計(jì):1)為所有的鍵分配同樣的溫度參數(shù);2)(對(duì)于源數(shù)據(jù)和目標(biāo)數(shù)據(jù))使用兩個(gè)獨(dú)立的字典而不是一個(gè)單獨(dú)的域混合字典;3)使用內(nèi)存庫(kù)或當(dāng)前小批量(current mini-batch)來更新字典。實(shí)驗(yàn)證實(shí)了設(shè)計(jì)的優(yōu)越性。
總體而言,邵嶺博士及團(tuán)隊(duì)提出了一種類別對(duì)比方法CaCo,該方法引入了通用的類別對(duì)比損失函數(shù)(generic category contrastive loss),可有效用于多種視覺UDA任務(wù)。團(tuán)隊(duì)用來自源域和目標(biāo)域的樣本構(gòu)建了一個(gè)語(yǔ)義感知字典,域中的每一個(gè)目標(biāo)樣本都根據(jù)源域樣本的類別先驗(yàn)被分配了一個(gè)(偽)類別標(biāo)簽。這使得(目標(biāo)查詢和類別級(jí)的字典間的)類別對(duì)比學(xué)習(xí)可以學(xué)習(xí)具有類別判別力且域不變的表征:同類別的樣本(無論是來自于源域或者目標(biāo)域)會(huì)被拉近而不同類別的樣本被同時(shí)推遠(yuǎn)。在多種視覺任務(wù)(例如分割、分類和檢測(cè))中進(jìn)行的大量實(shí)驗(yàn)顯示單獨(dú)使用CaCo就可以展現(xiàn)出與當(dāng)前最先進(jìn)的方法相當(dāng)?shù)男阅?。另外,?shí)驗(yàn)也顯示CaCo可以與現(xiàn)有的UDA方法互補(bǔ),也可以外推至其他的學(xué)習(xí)類型,如無監(jiān)督模型自適應(yīng)、開放/半開放集域自適應(yīng)等。
標(biāo)簽: 損失函數(shù) 最先進(jìn)的 學(xué)習(xí)類型
熱門