作者 | 同潤、歸雨、熊兮 來源 | 阿里技術公眾號 一 概述 7月8日,中文語言理解權威評測基準CLUE公開了中文小樣本學習評測榜單最新結果,阿里雲計算平臺PAI團隊攜手達摩院智能對話與服務技術團隊,在大模型和無參數限制模型雙賽道總成績第一名,決賽答辯總成績第一名。 中文語言理解權威評測基準CLUE自成立以來發布了多項NLP評測基準,包括分類榜單,閱讀理解榜單和自然語言推斷榜單等,在學術界、工業界產生了深遠影響。其中,FewCLUE是CLUE最新推出的一項中文小樣本學習評測基準,用來評估機器學習模型是否能夠通過極少樣本的學習來掌握特定的自然語言處理任務。基於這項評估,科研人員可以更精準的衡量機器學習訓練出來的模型的泛化性和準確率。比如智能客服場景中的用戶意圖識別,僅需人工標註幾十條樣本,就能讓意圖識別的準確率達到90%。 眾所周知,大規模預訓練模型雖然在各大任務裡面取得非常大的效果,但是在特定的任務上,還是需要許多標註數據。由於收集和標註模型需要的訓練的數據收集成本昂貴,所以需要攻關小樣本學習技術,使用遠小於經典深度學習算法需要的數據量,接近甚至超越經典深度學習算法的精度。此次,阿里雲PAI團隊攜手達摩院提出了一套大模型+小樣本的聯合方案,在大規模通用預訓練基礎之上,結合了基於知識的預訓練和Fuzzy-PET少樣本學習,一舉取得了優異的成績。甚至在一個小樣本學習任務上的精準度超過了人類。 二 賽題分析 & 建模思路 比賽數據集總體特點如下: 小樣本:訓練集和檢驗集均為每個類別16shot,考驗算法在小樣本情境下的魯棒性 泛化性:任務特徵差異明顯,需要模型有較好的泛化能力 無標籤數據:多數任務提供了數量可觀的無標籤數據,可以嘗試continued pretrain和self-training