《摘取人工智能的明珠：達摩院語音技術發展之路》

演講嘉賓簡介：鄢志傑，達摩院語音實驗室負責人，IEEE senior member

以下內容根據演講視頻以及PPT整理而成。
觀看回放 https://yq.aliyun.com/live/2638
本次分享主要圍繞以下三個方面：
一、達摩院語音實驗室使命
二、打造完全自主全鏈路技術棧
三、案例分享

一、達摩院語音實驗室使命

達摩院可能是大家即熟悉又陌生的組織。自2017年開始，達摩院走過了2年多的時間，正如馬雲老師在2017年雲棲大會上所提到的，達摩院的定位即不是Research for fun，也不應該是Research for profit，而是Research for profit and fun。那麼什麼樣的語音相關的Problem 是即profit 又fun的？

1.語音交互無處不在

達摩院語音實驗室本著讓語音交互無處不在的宗旨，對語音技術進行探索和研究，將過往的實驗室模型和技術應用到商業場景中，不斷打破行業邊界。從最開始的藉助頭戴式耳麥和桌面PC進行語音識別，逐漸演化到使用手機就可以進行精確的語音識別，以及與遠距離智能音響、智能冰箱、智能機器人等進行語音交互，語音技術在不斷的解鎖新的使用場景。達摩院語音實驗室也希望不斷的延伸語音技術的觸角，讓語音技術滲透到人們生活的方方面面，連接人與互聯網。

2.予以行業實踐者擴展語音技術邊界
達摩院語音實驗室的另一個使命是予以行業實踐者擴展語音技術邊界。傳統行業中，語音技術更多是掌握在大公司手中，並服務於更宏大的系統中，如微軟研究將語音技術研發為Windows 和Office的輸入工具。但隨著技術的發展，阿里希望為更多行業實踐著提供開箱即用的語音技術，將語音技術拓展到其它的行業中，實現語義技術更高的商業價值。“以產品為核心，已技術為基礎，以市場為導向”是達摩院語音實驗室的口號，從這句話可以看出達摩院與傳統研究院存在諸多不同。達摩院投入了非常多的人力，物力研究核心技術，同時將researcher 和engineer放在同一個組織中，使得最源頭的研究迅速轉化為產品，同時通過產品收集反饋，為後續研究選題提供基礎。最後希望通過市場為導向，指導研發的選題，使得研究可以與商業世界產生聯繫，以最快的速度產品化，實現更高的商業價值。

二、打造完全自主全鏈路技術棧

阿里自2014年開始著手研究語音技術，並迅速組建了世界級科學家和工程師的專業團隊。團隊成員多元化，來自兩岸三國五地，包括北京、杭州、西雅圖、硅谷和新加坡等，海納百川，發揮眾家所長。阿里語音AI一直強調搭建全鏈路的技術棧，甚至從最源頭的聲學設計、麥克風陣列設計、硬件電路到上層的語音合成、語音識別、以及問答系統、以及最上層的雲端工業級語音交互系統定製平臺都配有專門的團隊。之所以沒有藉助第三方企業的技術是因為語音不僅是一種科學還是一種技術，除了解決問答的問題，更多的是應該提供更好的語音交互體驗。只有下苦功，投入很多人力物力搭建全鏈路技術棧才能使得最終的語音交互系統效果更好、同時提供優良的用戶體驗。

1.語音技術的作用

語音技術是很重要的橋樑，包括人與人之間的溝通和人與互聯網的交互，語音都是最自然，最便捷的溝通橋樑。阿里雲語音技術團隊的整體目標定位是為阿里巴巴經濟體及阿里雲客戶，供給無處不在的語音交互智能服務。其中服務是通過統一的平臺型產品，同時服務阿里內部及外部用戶。供給是通過提供具備優秀語音原子能力和交互體驗的平臺型產品，以“被集成”的方式服務用戶，幫助他們在其所在的行業中創造價值。並且相信在未來，所有的空間，包括家居、車載、辦公、以及公共空間，語音的觸點將無處不在。

2.阿里巴巴經濟體語音技術大圖

語音實驗室最核心的交付物是阿里語音AI，阿里雲對外的客戶可以同時享受到與內部服務同樣的技術。下圖展示了阿里語音AI的技術大圖，其中語音技術、交互技術、工程技術作為基礎研發工作會沉澱為平臺產品，如語音原子能力服務、語音交互智能服務和智能拾音硬件等。語音原子能力服務包括語音識別、語音合成、聲紋等比較自恰的服務。這些服務進行組合，構成語音交互的服務。目前，達摩院語音實驗室正在研究通過拾音硬件將非結構化的語音信息轉化成結構化信息。最上層則會服務於各種各樣業務的應用。

阿里雲通過多年的積累，也獲得了較為顯著的成果。通過與全球領先的語音智能公司的同場競技，阿里語音AI與谷歌、亞馬遜等公司同時被譽為2019年Top 10 breakthrough technologies之一。通過大家在研發側與應用側的努力，使得阿里語音AI在技術和應用層面都走在了業界領先位置。

3.阿里語音AI技術

語音識別技術：語音識別技術是研究最基礎的Language model，Acoustic model，Decoder和Online service 的模型組合。通過模型的演化和迭代，製造更多的應用。好的模型意味著更高的accuracy，更低的消耗，以合理的成本實現語音AI的雲服務化。

語音合成技術：語音合成與語音識別相反，指將語音轉成文字。達摩院語音實驗室自主研發的KAN-TTS的語音合成技術，融合了目前主流的端到端的TTS技術和傳統TTS技術，從多個方面改進了語音合成，提升了語音合成的自然度。

語音對話技術：阿里也在不斷的提升語音對話技術，無論是ESIM的開源，還是取得DSTC-7冠軍，異或取得Commonsense AQ冠軍，都是阿里在語音對話技術方面的自主研發所取得的成果。

三、案例分享

1.對內服務案例

阿里經濟體本身就是語音技術可以施展才華的廣闊場景。下圖介紹了在阿里巴巴經濟體對內服務的典型案例。如淘寶和支付寶的語音助手，可以幫助服務電話用戶；高德語音助手為用戶提供喚醒功能和語音導航功能；釘釘可以將用戶的輸入語音實時傳化為文本，解放接收端的壓力；以及目前處於市場領先地位的天貓精靈智能音響；甚至在海外國家提供螞蟻金服的智能語音識別服務。在內容安全領域，保障非文字內容的安全。甚至在疫情期間，阿里巴巴智能疫情機器人成功落地全國27個省份，累計為39座城市撥打超3000萬的防控摸排電話，完成100萬人次的在線諮詢服務，有效緩解了防控一線人力不足的問題。

2.零時差上雲

如果大家對語音技術感興趣，在阿里雲官網就可找到想應的技術及解決方案。如語音AI原子能力中包括錄音文件識別、實時語音識別、一句話識別、語音識別自學習、KAN-TTS語音合成、聲優工廠等。在語音AI的技術解決方案中提供了雲小蜜，智能對話分析，內容安全及智能外呼等案例。

4.語音識別自學習服務

任何人都可以通過語音技術解決自身行業中的問題。但目前語音AI技術存在一個明顯的行業間的Gap，即很難有一種技術在不同領域中都達到很高的accuracy，如金融行業和電商行業。需要根據具體的領域及行業特性，制定具體的語音識別模型。與傳統定製模型不同，阿里語音識別自學習體系是通過在雲上提供具體的語音技術和工具，讓實踐者自主的進行學習，用戶只需拿出一些行業數據，阿里語音識別自學習體系為其提供數據標註，模型訓練，模型部署等服務。

語音識別自學習服務案例：以授人以漁的方式，加速語音技術在不同行業中創造更多的價值。阿里除了提供開箱即用的功能，還給合作伙伴提供了多種工程化的服務。如中國移動10086使用阿里語音識別自學習功能助力語音導航，省去了大量的運營成本，並解決了大量的用戶問題。

基於KAN-TTS的語音合成定製功能，可以解決傳統的人生定製方案所帶有的機械感語音問題，是的錄音內容更擬人化，大大縮減數據的收集時間，平均以月為單位定製語音合成模型。
目前，有很多行業都在使用阿里的智能語音服務。阿里語音AI為浙江電力提供虛擬調度員，將語義理解、知識圖譜、智能決策等功能進行全面結合，減少了80%的人工重複工作，幫助客戶提升工作效率，減少了上億元的生產運維支出。
阿里語音AI為智慧地鐵提供語音售票及問詢機。通過在智慧交通領域與高德、支付寶深度融合，用戶只需語音搜索目的地，就可以為其提供線路規劃，無現金支付等功能。並且在嘈雜的環境中依然可以進行語音的交互，提供周邊車站，設施等信息的自主問詢功能。智能語音售票及問詢機已在全國多個城市落地，如北京、上海、杭州等。

AIoT也是目前大家廣泛關注的領域，如下圖中的右側是一個小的語音模組，左側是開關面板。通過語音模組的嵌入可以瞬間與雲進行打通，同時具備語音交互的能力。