阿里巴巴淘系技術部與北京大學前沿計算研究中心CVDA實驗室、英國愛丁堡大學等合作,正式開源業界首個大規模的多模態直播服飾檢索數據集(Watch and Buy),以推動視頻多模態檢索技術的研究。此前,依託該數據集舉辦的第一屆淘寶直播商品識別大賽完美落幕,近2000支隊伍參加了比賽,湧現了一批檢索創新技術,有效提升淘寶直播場景中服飾檢索的效果,形成了一定的學術和工業影響力。
什麼是 Watch and Buy?
直播帶貨是淘寶連接商品和消費者的重要方式,通過對直播視頻中商品進行實時識別和推薦,可實現消費者邊看邊買的消費體驗,有效提高商品購買的轉化,有非常大的經濟價值。通常情況下直播對應的數百款商品之間相似程度高,且直播畫面中存在大量的背景干擾、燈光變化、商品遮擋和形變等,給直播畫面中商品的匹配識別帶來很大的技術挑戰。
淘寶直播“邊看邊買”效果示例,藉助PixelAI 商品識別算法,可以從該直播的商品庫中識別出直播中主播講解的商品,並在直播中通過商品卡片形式推薦給消費者。
為了提升直播中商品匹配識別的效果,我們依託淘寶直播海量數據,構建了業界最大規模的多模態視頻商品檢索數據集Watch and Buy (WAB)。
該數據集包含70,000個由直播視頻片段和對應講解商品構成的匹配對,具有規模大、標註全、模態多、功能廣的特點。
我們抽取視頻片段若干關鍵幀和商品的全部商品圖進行了實例框級標註,商品id數達82,173個,標註圖像數達1,042,178張,檢測框實例1,654,780個。
框級標註信息豐富多樣,包括商品的檢測框、類別、視角、展示方式、同款編號等。除了視覺標註,我們還對主播講解語音進行了人工文本轉錄,同時提供了商品的標題文本信息。該數據集可用於物體檢測的算法、商品重識別算法、主播意圖識別、跨模態檢索和多模態檢索等多種算法的研究。
為什麼需要 Watch and Buy?
當前開源的服飾檢索數據集都存在一些不足,無法滿足真實視頻場景中服飾實時識別的應用和細緻研究。
首先,已有開源數據集均為靜態圖片的數據集,而真實視頻直播場景中還存著運動模糊、遮擋等問題;通過針對視頻場景的數據集能夠有效對上述問題進行研究和解決。
其次,已有開源數據集的圖片多為網上收集,數目少、噪聲大且標註維度不全,我們依託淘寶網和淘寶直播的真實業務場景,能夠獲取大規模、高質量和全面的商品信息。
最後,現有數據集多為單一的圖片數據集,我們還提供了主播語音翻譯文本、商品圖標題文本等多模態的信息,進行多模態商品檢索的研究,能夠更加貼近真實場景。
我們相信 Watch and Buy 數據集的這些特性將會持續激發視頻多模態檢索領域的技術創新研究。
淘寶直播商品識別大賽簡介
為了方便學術界廣泛參與,我們將業務問題抽象為視頻庫和商品庫之間的多模態視覺檢索問題。在評價指標上,提出了片段級、幀級和檢測框級評價標準,全面衡量選手算法效果。
為了保證選手算法既能快速迭代又能有效賦能線上真實業務,我們在初賽、複賽和決賽的賽題中逐步引導選手從技術貼近業務,其中,初賽為萬級視頻片段的檢索問題,複賽則加入了真實場景中存在的商品缺失問題,決賽則是將選手方案部署到真實線上場景,直接評價完整直播視頻的算法效果。
大賽由淘系技術部內容社交互動平臺和天池競賽平臺共同舉辦, 發佈了業界最豐富的7W規模多模態視頻檢索數據集,用於進行算法模型的訓練和效果評測,並且提供了24W的比賽獎金獎勵優秀參賽者,考慮到疫情期間高校參賽者的資源困難,**額外提供了GPU機器進行模型在線訓練,最終吸引到1945支隊伍參賽。
**
選手來源中,30%的隊伍來自高校,26%來自公司,個人參賽有6%。選手學歷分佈為,40%的選手擁有碩士學歷,24%的選手為本科,博士選手佔6%。最終,來自中科院計算所和吉林大學的逐星團隊以超越Baseline方案20%的成績奪得本次比賽的冠軍,另外多位來自高校的參賽同學表示已經在數據集上進行算法研究,並保持於主辦方密切聯繫。
淘系技術的算法同學對優秀方案吸納並補充到淘寶直播線上場景中,實現更好服務於淘寶直播商品識別業務。
淘系技術部—多媒體算法團隊
我們依託淘係數十億級的視頻數據和千億級商品數據,有豐富的業務場景和技術方向。我們著眼於淘寶直播和短視頻,著手打造集團統一的視頻內容理解框架,對圖像&視頻的生產、智能審核、大規模檢索、高效率分發提供全鏈路的賦能。我們持續以技術驅動產品和商品創新,不斷探索和衍生顛覆型互聯網新技術。歡迎機器學習、視覺算法、音視頻通信、端側智能等領域全球頂尖專業人才加入,讓科技引領面來未來的商業創新和進步。
請投遞簡歷至郵箱:[email protected]
附錄:
關注「淘系技術」微信公眾號,一個有溫度有內容的技術社區~