「阿里語音AI」十篇論文入選語音頂會INTERSPEECH2020

來源阿里語音AI 公眾號

「阿里語音AI」十篇論文入選語音頂會INTERSPEECH2020，論文研究方向包含語音識別，語音合成，說話人識別，語音增強和信號處理。後續我們會進行一些論文的詳細解讀，敬請期待～～

1）語音識別

• Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin, SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition.

• Shiliang Zhang, Zhifu Gao, Haoneng Luo, Ming Lei, Jie Gao, Zhijie Yan, Lei Xie, Streaming Chunk-Aware Multihead Attention for Online End-to-End Speech Recognition

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Cross Attention with Monotonic Alignment for Speech Transformer

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Speech Transformer with Speaker Aware Persistent Memory

• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Universal Speech Transformer

2）語音合成

• Shengkui Zhao, Trung Hieu Nguyen, Hao Wang and Bin Ma, Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion

3）說話人識別

• Siqi Zheng, Yun Lei, Hongbin Suo, Phonetically-Aware Coupled Network For Short Duration Text-independent Speaker Verification.

4）語音增強

• Zhihao Du, Ming Lei, Jiqing Han, Shiliang Zhang, Self-supervised Adversarial Multi-task Learning for Vocoder-based Monaural Speech Enhancement

5）信號處理

• Weilong Huang and Jinwei Feng，Differential Beamforming for Uniform Circular Array with Directional Microphones

• Ziteng Wang, Yueyue Na, Zhang Liu, Yun Li, Biao Tian and Qiang Fu, A Semi-blind Source Separation Approach for Speech Dereverberation.

達摩院語音實驗室介紹

致力於語音識別、語音合成、語音喚醒、聲學設計及信號處理、聲紋識別、音頻事件檢測等下一代人機語音交互基礎理論、關鍵技術和應用系統的研究工作。形成了覆蓋電商、新零售、司法、交通、製造等多個行業的產品和解決方案，為消費者、企業和政府提供高質量的語音交互服務。

主要研究方向

語音識別及語音喚醒

面向家居、車載、辦公室、公共空間、強噪聲、近遠場等複雜場景，研究多語言、多模態、端雲一體的語音識別及喚醒技術，通過平臺方式提供豐富的開發者定製模型自學習能力，讓業務具備語音模型的自定製能力。

語音合成

研究高音質、高表現力的語音合成技術及個性化語音合成，說話人轉換技術，主要應用於語音交互、信息播報和篇章朗讀等場景。

聲學及信號處理

研究聲學器件、結構和硬件方案設計，基於物理建模和機器學習的聲源定位、語音增強和分離技術、以及多模態和分佈式信號處理等。

聲紋識別與音頻事件檢測

研究文本相關/無關聲紋識別、動態密碼、近場/遠場環境聲紋識別、性別年齡畫像、大規模聲紋檢索、語種方言識別、音頻指紋檢索、音頻事件分析等。

口語理解及對話系統

基於自然語言理解技術，構建語音交互場景下的口語理解和對話系統，提供給開發者自糾錯能力及對話定製能力。

端雲一體語音交互平臺

綜合應用聲學、信號、喚醒、識別、理解、對話、合成等原子能力，構建全鏈路、跨平臺、低成本、高可複製性、端雲一體的分佈式語音交互平臺，幫助第三方具備可擴展定製化的場景能力。

多模態人機交互

業內首創在公眾場所強噪音的環境下實現免喚醒遠場語音交互，並結合流式多輪多意圖口語理解，業務知識圖譜自適應等技術，面向公共空間真實複雜的場景提供自然語音交互體驗。

智能語音產品官網鏈接：

https://ai.aliyun.com/nls