來源 阿里語音AI 公眾號
「阿里語音AI」十篇論文入選語音頂會INTERSPEECH2020,論文研究方向包含語音識別,語音合成,說話人識別,語音增強和信號處理。後續我們會進行一些論文的詳細解讀,敬請期待~~
1)語音識別
• Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin, SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition.
• Shiliang Zhang, Zhifu Gao, Haoneng Luo, Ming Lei, Jie Gao, Zhijie Yan, Lei Xie, Streaming Chunk-Aware Multihead Attention for Online End-to-End Speech Recognition
• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Cross Attention with Monotonic Alignment for Speech Transformer
• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Speech Transformer with Speaker Aware Persistent Memory
• Yingzhu Zhao, Chongjia Ni, Cheung-Chi LEUNG, Shafiq Joty, Eng Siong Chng and Bin Ma, Universal Speech Transformer
2)語音合成
• Shengkui Zhao, Trung Hieu Nguyen, Hao Wang and Bin Ma, Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion
3)說話人識別
• Siqi Zheng, Yun Lei, Hongbin Suo, Phonetically-Aware Coupled Network For Short Duration Text-independent Speaker Verification.
4)語音增強
• Zhihao Du, Ming Lei, Jiqing Han, Shiliang Zhang, Self-supervised Adversarial Multi-task Learning for Vocoder-based Monaural Speech Enhancement
5)信號處理
• Weilong Huang and Jinwei Feng,Differential Beamforming for Uniform Circular Array with Directional Microphones
• Ziteng Wang, Yueyue Na, Zhang Liu, Yun Li, Biao Tian and Qiang Fu, A Semi-blind Source Separation Approach for Speech Dereverberation.
達摩院語音實驗室介紹
致力於語音識別、語音合成、語音喚醒、聲學設計及信號處理、聲紋識別、音頻事件檢測等下一代人機語音交互基礎理論、關鍵技術和應用系統的研究工作。形成了覆蓋電商、新零售、司法、交通、製造等多個行業的產品和解決方案,為消費者、企業和政府提供高質量的語音交互服務。
主要研究方向
語音識別及語音喚醒
面向家居、車載、 辦公室、公共空間、強噪聲、近遠場等複雜場景,研究多語言、多模態、端雲一體的語音識別及喚醒技術,通過平臺方式提供豐富的開發者定製模型自學習能力,讓業務具備語音模型的自定製能力。
語音合成
研究高音質、高表現力的語音合成技術及個性化語音合成,說話人轉換技術,主要應用於語音交互、信息播報和篇章朗讀等場景。
聲學及信號處理
研究聲學器件、結構和硬件方案設計,基於物理建模和機器學習的聲源定位、語音增強和分離技術、以及多模態和分佈式信號處理等。
聲紋識別與音頻事件檢測
研究文本相關/無關聲紋識別、動態密碼、近場/遠場環境聲紋識別、性別年齡畫像、大規模聲紋檢索、語種方言識別、音頻指紋檢索、音頻事件分析等。
口語理解及對話系統
基於自然語言理解技術,構建語音交互場景下的口語理解和對話系統,提供給開發者自糾錯能力及對話定製能力。
端雲一體語音交互平臺
綜合應用聲學、信號、喚醒、識別、理解、對話、合成等原子能力,構建全鏈路、跨平臺、低成本、高可複製性、端雲一體的分佈式語音交互平臺,幫助第三方具備可擴展定製化的場景能力。
多模態人機交互
業內首創在公眾場所強噪音的環境下實現免喚醒遠場語音交互,並結合流式多輪多意圖口語理解,業務知識圖譜自適應等技術,面向公共空間真實複雜的場景提供自然語音交互體驗。
智能語音產品官網鏈接: