來源 阿里語音AI 公眾號
關鍵詞:
國際對話系統技術挑戰賽,DSTC7,ESIM,多輪迴複選擇
導語
一年一度的國際對話系統技術挑戰賽(Dialogue System Technology Challenges, DSTC)作為國際頂尖人工智能學術競賽受到越來越多學術界、工業界學者們的關注。第八屆對話系統技術挑戰賽(DSTC8)已在2020年2月8日紐約的AAAI2020頂級國際學術會議上舉行。藉此時機,本文將回顧阿里語音AI在第七屆對話系統技術挑戰賽 (DSTC7)所獲的成績和解讀背後所用到的原創核心技術-ESIM。
背景介紹
DSTC由來自微軟研究院、卡耐基梅隆大學的科學家於2013年發起,迄今已舉辦七屆。DSTC7的比賽共有三個賽道,其中賽道一(Track 1)是一個多輪迴複選擇任務,它要求參賽的AI模型依據給定的多輪對話歷史從成百到上萬個句子中選出正確的回覆。阿里語音AI參加了賽道一的競賽,並在全部的2項比賽中擊敗了包括麻省理工學院、約翰霍普金斯大學、IBM研究院在內的近20支國際知名大學或研究機構的參賽隊伍,獲得了雙料冠軍[1]。
基於ESIM的多輪迴複選擇
此次阿里的參賽AI模型叫做Enhanced Sequential Inference Model (ESIM)[2],這是阿里自主研發的一種用於解決多輪對話回覆問題的原創模型。開源地址:https://github.com/alibaba/esim-response-selection
ESIM模型結構如下圖所示,主要包括三部分。第一部分稱為輸入編碼,主要是對輸入的premise和hypothesis分別進行詞向量提取和用BiLSTM1進行考慮上下文的編碼。第二部分稱為局部推理建模,先計算premise和hypothesis之間的dot-product attention weight matrix,然後用彼此進行相互重構,並和原本的BiLSTM1編碼後的embedding進行拼接。第三部分稱為推理組合,用BiLSTM2把前面得到的拼接向量進行特徵提取,最後把pooling後的表徵拼接起來送入MLP分類器。
這次參賽所採用的ESIM模型是基於序列結構的模型,與以往多輪迴複選擇領域state-of-the-art(SOTA)模型所採用的層級結構不同,該模型更簡潔且更高效。層級結構是指分別對句子級(utterance-level)和詞級(token-level)進行人工神經網絡建模,來顯式地建模不同輪對話內容的關係。這種方式通常需要對不同輪的句子進行截斷,來確保不同輪有相同的文本長度且短於預先設定的最大長度。然而,實際應用中,不同輪對話的長度往往變化很大,從而需要很多的補零填充(zero padding),導致計算複雜度和內存消耗的顯著增加。如果只使用較小的最大長度,則面臨著丟失多輪上下文中重要信息的風險。此次採用的ESIM模型是基於序列結構的模型,將多輪的上下文信息拼接成一個長序列,有效地解決了上述層級結構所面臨的問題。ESIM有兩個主要優勢:1)ESIM不需要使每輪的對話有相同長度,因此有更少的補零填充,從而比層級結構的模型有更高的計算效率。2)ESIM模型隱式地的建模不同輪對話的關係,從而不需要額外複雜的網絡來建模。
除了在DSTC7多輪迴複選擇比賽中獲得雙料冠軍之外,參賽的ESIM模型在公開的多輪迴複選擇標準數據集Ubuntu(英文)和E-commerce(中文)上均顯著地提升了之前的最優性能,取得了目前最好的結果 [3]。例如,相比之前最好的模型(來自百度團隊的DAM模型 [4]),ESIM獲得在Ubuntu數據集上相對12.4%的錯誤率 (1-R@1) 的降低。
ESIM的更多應用
ESIM模型是自然語言推理任務中具有代表性的一個模型,該模型可以被用來處理幾乎所有的句子對分類問題。它曾在多種國際學術競賽中嶄露頭角。例如,Kaggle Quora Question Pairs競賽的冠軍模型採用了ESIM,螞蟻舉辦的ATEC語義匹配比賽TOP20的選手75%都採用了ESIM或者在此基礎上改動的模型, DSTC7 多輪迴複選擇賽道的近20 支參賽隊伍中有5支參賽隊伍採用了ESIM。另外,該模型也在阿里巴巴集團內部的商品檢索、智能問答、話題生成等領域有著廣泛的應用。
參考文獻
[1] ChulakaGunasekara, Jonathan K. Kummerfeld, Lazaros Polymenakos, and Walter S. Lasecki.“DSTC7 Task 1: Noetic End-to-End Response Selection - Track 1 Overview”. DSTC7 workshop(2019). http://workshop.colips.org/dstc7/papers/dstc7_task1_final_report.pdf
[2] Qian Chen,Xiao-Dan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang and Diana Inkpen. “Enhanced LSTMfor Natural Language Inference.” ACL (2016).
[3] Qian Chen andWen Wang. “Sequential Matching Model for End-to-end Multi-turn ResponseSelection.” ICASSP 2019 - 2019 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP) (2019): 7350-7354.
[4] XiangyangZhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen, Wayne Xin Zhao, Dianhai Yu andHua Wu. “Multi-Turn Response Selection for Chatbots with Deep AttentionMatching Network.” ACL (2018).