穿衣搭配不僅反映個人的審美同時也與出席的場合、文化傳統(tǒng)息息相關(guān)。在一個時尚場景中,通常會包含三個要素:場合、個體和衣著。這些時尚信息和知識對于衣著推薦搭配等應(yīng)用十分重要。而當(dāng)今高度發(fā)展的社交媒體為時尚知識提供了豐富的資源,從朋友圈到微博從推特到Ins,人們在不同場合的穿搭圖像、文字和多媒體信息構(gòu)成了龐大的信息資源。
來自新加坡國立大學(xué)的研究人員們利用深度學(xué)習(xí)集成多種方法來從社交媒體中抽取時尚三要素,以實(shí)現(xiàn)時尚知識的自動化抽取和學(xué)習(xí),同時還構(gòu)建了以用戶為中心時尚知識抽取數(shù)據(jù)集FashionKE。
時尚時尚最時尚
隨著生活水平的不斷提高,人們的時尚需求不斷增加,對于不同場合的衣著搭配也有著更為精細(xì)化的需求。面對這個萬億級的時尚市場,如何將機(jī)器學(xué)習(xí)與深度學(xué)習(xí)更有效的應(yīng)用于時尚知識的學(xué)習(xí)、穿搭推薦甚至是知識級別的構(gòu)建是科技巨頭和研究人員們的研究熱點(diǎn)。
目前對于時尚知識級別的研究工作還比較有限,如何有效的穿衣搭配涉及到場景、主體和衣著三個關(guān)鍵因素。在日常生活有很多固定的經(jīng)驗(yàn)和模式幫助人們進(jìn)行有效的穿搭,但研究人員希望將這些模式總結(jié)成更為凝練的知識以指導(dǎo)不同的人在對應(yīng)的場合進(jìn)行最適宜的穿搭。在這一過程中,需要面對的第一個問題就是,從哪里去獲取這些知識呢?如何獲取這些知識呢?新加坡國立大學(xué)的研究人員給出了自己的答案。
他們將目光放到了各大社交媒體平臺,從中進(jìn)行以用戶為中心的自動化時尚知識抽取,來幫助實(shí)現(xiàn)這一目標(biāo)。為什么呢?社交媒體的龐大用戶規(guī)模保證了多模態(tài)數(shù)據(jù)的豐富和質(zhì)量,不僅包含了世界各地、各個場景中用戶的照片,同時也包含了包括性別在內(nèi)的個人屬性,而且還緊跟時尚潮流更新迅速。但有些利用這些數(shù)據(jù)還面臨著一系列挑戰(zhàn)。
首先時尚知識的抽取很大程度上決定于時尚概念和屬性抽取器的表現(xiàn),包括對于場景、衣著和飾品的識別檢測。雖然現(xiàn)在在學(xué)術(shù)界有很多研究成果,但大多集中于簡單干凈的背景上,而現(xiàn)實(shí)中面對的卻是豐富多樣的自然場景,使得屬性檢測變得十分困難。第一個需要解決的挑戰(zhàn)就是需要實(shí)現(xiàn)自然場景和背景的時尚概念和屬性檢測。
其次社交媒體雖然豐富,但基本上缺乏時尚概念的標(biāo)注,但這對時尚知識的構(gòu)建十分重要。時尚知識自動獲取的質(zhì)量極大地依賴于語義級的時尚概念學(xué)習(xí)。手工標(biāo)記如此龐大的數(shù)據(jù)是不現(xiàn)實(shí)的,而現(xiàn)存的電子商務(wù)數(shù)據(jù)主要集中于衣著屬性,缺乏人物和場景屬性的標(biāo)注。 如何解決這兩個問題成為了實(shí)現(xiàn)知識抽取的關(guān)鍵。
時尚知識自動化抽取
為了解決這兩個問題,研究人員提出了一種基于弱標(biāo)記數(shù)據(jù)的時尚概念聯(lián)合檢測方法。這種基于上下文的時尚概念學(xué)習(xí)模塊可以有效捕捉不同時尚概念間的聯(lián)系和相關(guān)性,通過場景、衣著分類和屬性來輔助時尚知識抽取。其中弱標(biāo)記數(shù)據(jù)則有效應(yīng)對了缺乏標(biāo)記數(shù)據(jù)的困擾,在標(biāo)記遷移矩陣幫助下,通過機(jī)器標(biāo)記數(shù)據(jù)和干凈數(shù)據(jù)的結(jié)合可有效控制學(xué)習(xí)過程中的噪聲。
這一研究的目標(biāo)在于從社交媒體中抽取用戶為中心的時尚知識數(shù)據(jù),得到場景對應(yīng)穿著的結(jié)構(gòu)化數(shù)據(jù)為下游任務(wù)提供應(yīng)用基礎(chǔ)。
研究人員將時尚知識定義為個體、衣著和場合三元組合K={P,C,O},其中個體包括了人的屬性:性別、年齡、身材;服裝則包括了衣著的屬性和分類,用于定義特定類型的服飾,例如:一條深藍(lán)色的露肩長裙;場景則包含了各種主體出席的場合、包括舞會、約會、會議、聚會等等及其相關(guān)的時間地點(diǎn)元數(shù)據(jù)。
研究人員的任務(wù)就是要從某個po出的社交媒體信息{V(圖像),T(文字),M(元數(shù)據(jù))}中抽取出上面的信息構(gòu)成時尚知識{P,C.Q}。這一任務(wù)自然包含了三個子任務(wù):人體屬性檢測、衣著分類和屬性檢測、場景檢測。
人體檢測框架目前很成熟,所以研究人員致力于后兩個子任務(wù)的開發(fā),從社交媒體數(shù)據(jù)中聯(lián)合檢測出主體所處的場景和服裝分類屬性。
為了有效檢測場景及其主體的衣著分類屬性,研究人員設(shè)計了一套統(tǒng)一的框架來獲取其屬性及相關(guān)性。這套基于上下文時尚概念的學(xué)習(xí)模型包含了兩個雙邊回歸神經(jīng)網(wǎng)絡(luò)來捕捉場景、衣著間的聯(lián)系。
對于某篇包含圖像V和文字T社交媒體來說,這一模型首先將衣著檢測模型檢測圖像中一系列的服飾區(qū)域。隨后針對圖像預(yù)測出對應(yīng)的場景標(biāo)簽,針對每個服裝區(qū)域預(yù)測出對應(yīng)的服裝類別和屬性標(biāo)簽。為了有效的預(yù)測出這三者之間的相關(guān)性,研究人員利用基于上下文的方式來從中得到不同屬性間的關(guān)系以便抽取知識。為了有效抽取知識,需要對服裝分類、場景和服裝屬性的表示進(jìn)行學(xué)習(xí)。
分類表達(dá)。模型的第一步是學(xué)習(xí)服裝區(qū)域的上下文表示用于分類預(yù)測和整幅圖像的場景預(yù)測。研究人員首先利用與訓(xùn)練的CNN來抽取全圖和每個服裝區(qū)域的特征表示,隨后利用雙邊LSTM來編碼所有服裝區(qū)域間的相關(guān)性,并最終得到服裝區(qū)域的分類表達(dá)。
場景表達(dá)。為了更好的表達(dá)整幅圖像,研究人員將第一步中整幅圖像的CNN特征、上一步Bi-LSTM的最后隱含狀態(tài)及TextCNN抽取文字描述特征結(jié)合為新的特征,來實(shí)現(xiàn)場景表達(dá)學(xué)習(xí);
屬性表達(dá)。最后,由于每種服裝有包括顏色、長短、外形等多個不同特征,所以需要屬性預(yù)測模塊來預(yù)測屬性。研究人員利用多分支的結(jié)構(gòu)來對不同種類的服飾進(jìn)行屬性預(yù)測,每個分支輸出層的神經(jīng)元數(shù)量代表了對應(yīng)的屬性數(shù)目。
隨后為了捕捉不同服飾屬性和服飾分類間的依賴關(guān)系,研究人員使用了第二個雙邊LSTM來編碼屬性和分類間的依賴關(guān)系,并最終通過全連接轉(zhuǎn)換為屬性表達(dá)。最終通過標(biāo)準(zhǔn)的分類器將得到場景、服裝分類和屬性的預(yù)測分?jǐn)?shù)。
為了對這一模型進(jìn)行訓(xùn)練,研究人員構(gòu)建自己的數(shù)據(jù)集FashionKE,其中包含了80629張圖像,可以容易辨認(rèn)出時尚知識的三要素。同時對每張圖片進(jìn)行了場景標(biāo)注(十種主要場景);而針對服裝屬性和分類標(biāo)注,由于社交媒體數(shù)據(jù)過于龐大,對于每一個圖像和文字?jǐn)?shù)據(jù)進(jìn)行多種屬性的手工標(biāo)注是不現(xiàn)實(shí)的。只有30%的數(shù)據(jù)進(jìn)行了人工核對,其他數(shù)據(jù)都利用時尚標(biāo)簽工具進(jìn)行機(jī)器標(biāo)注。
機(jī)器標(biāo)注的數(shù)據(jù)很廉價,但是卻包含很多的噪聲,使得模型的訓(xùn)練容易出現(xiàn)過擬合。為了充分利用機(jī)器標(biāo)注的數(shù)據(jù)和少量人類標(biāo)記數(shù)據(jù),研究人員引入了弱標(biāo)記建模的方法來處理機(jī)器標(biāo)記數(shù)據(jù)中的噪聲。其基本思想是在模型中添加一個標(biāo)簽校正層,在預(yù)測層后利用估計出的標(biāo)簽轉(zhuǎn)換矩陣來實(shí)現(xiàn),使得預(yù)測與弱標(biāo)記的數(shù)據(jù)分布相匹配。這一轉(zhuǎn)換矩陣將通過與主干任務(wù)協(xié)同訓(xùn)練的線性層來得到。
實(shí)驗(yàn)和結(jié)果
研究人員在實(shí)驗(yàn)中發(fā)現(xiàn)新提出的框架和策略有效的實(shí)現(xiàn)了時尚概念的預(yù)測。通過與DARN、FashionNet和EITree的比較本文的方法在多個指標(biāo)上都超過了先前的方法。
一方面,由于本方法充分使用了機(jī)器標(biāo)注的模型并通過弱標(biāo)記建模模塊抑制了標(biāo)注噪聲的影響,從而得到了額外的增益。這一模型將場景、服裝分類和屬性間的依賴性和相關(guān)性進(jìn)行了考量,為時尚概念的識別提供了額外辨別能力。這些依賴性和相關(guān)性表明時尚知識的存在以及對于相關(guān)應(yīng)用的積極作用。
另一方面,這一方法還通過文字信息進(jìn)一步提升了性能,特別是在場景分類中很多社交媒體的問題信息包含了豐富的場景信息,有助于時尚信息的抽取。
此外通過消融性分析,研究人員發(fā)現(xiàn)第一個Bi-LSTM通過學(xué)習(xí)出不同服裝區(qū)域間的相關(guān)性來提升了分類性能,并通過將隱含層的加入來替身了場景預(yù)測性能;第二個Bi-LSTM則通過不同屬性表達(dá)和分類表達(dá)間的依賴性建模來提升性能;同時兩個LSTM間的協(xié)同作用也將顯著加強(qiáng)模型知識抽取能力。
最后通過不同比例的噪聲數(shù)據(jù)對模型訓(xùn)練也顯示出弱標(biāo)記建模對于知識抽取能力的提升。
最后研究人員們還展示了基于這一模型在不同領(lǐng)域的應(yīng)用。
從時尚概念抽取時尚知識,圖中展示了一部分結(jié)構(gòu)化的時尚知識
不同場景下人們的穿著服飾分析,包括國家、場合和季節(jié)都有著明顯的區(qū)分。
時尚知識分析,包含了不同季節(jié)和不同地區(qū)不同場合的穿著。
下圖還顯示了不同場合中最流行的服飾,包括了其中縱軸是男性女性對應(yīng)的十種場景、橫軸是對應(yīng)的流行穿著??梢钥吹綍h中男性傾向于穿著夾克外套、舞會中女性則喜愛各種連衣裙。
同時研究人員們還分析了不同屬性和分類間的相關(guān)性,圖中的節(jié)點(diǎn)大小代表了服飾的數(shù)量,邊的寬度代表了相關(guān)性的強(qiáng)弱??梢钥吹脚W醒澓鸵r衫T恤都是大家的最愛搭配。而不同屬性間的相關(guān)性中可以看到長款衣服還是主流,長袖長褲是主流搭配。
在未來研究人員們還將探索包括時尚穿搭推薦的不同領(lǐng)域的應(yīng)用,并對更加細(xì)粒度的知識進(jìn)行抽取,同時加入不同的視覺概念來實(shí)現(xiàn)包括交叉模態(tài)檢索和人體檢索等更多的檢索任務(wù)。
-
模塊
+關(guān)注
關(guān)注
7文章
2788瀏覽量
50405 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103643 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122799
原文標(biāo)題:對面的女孩看過來,深度學(xué)習(xí)從社交媒體中為你發(fā)掘最美穿搭
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對深度學(xué)習(xí)的意義
軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇
銅排搭接面是否需要滿搭
AI自動化生產(chǎn):深度學(xué)習(xí)在質(zhì)量控制中的應(yīng)用

評論