大數據

【技術揭祕】高性能粵語語音識別模型構建方案

來源 阿里語音AI 公眾號

隨著人工智能技術的飛速發展,語音識別(Automatic SpeechRecognition)的應用越來越廣泛,對於多語種多口音語音識別的需求也在日漸增加。雖然語音識別系統的基本原理和框架是不受限於語種的,在建立一個新語種的ASR模型時,還是需要結合到語言本身的特點,才能得到較好的效果。

粵語流通於廣東、廣西、香港、澳門及海外華人社區,全球有近1.2億人口使用粵語。在香港和澳門,大多數人口使用粵語為母語,具有官方語言的地位。粵語的代表音約定俗成以廣州粵語口音為標準。香港和澳門粵語跟廣州粵語在口音並無明顯分別,但是因香港和澳門在不同社會體制下的影響,以致一些用詞有所不同。而廣州以外的其他廣東及廣西地區的粵語與廣州粵語在口音上則存在著不同程度的差異。本文主要介紹阿里巴巴粵語語音識別引擎的開發過程中的一些體會。

聲學模型方面,粵語識別引擎是基於阿里巴巴自研的DFSMN-CTC建模方法。CTC(Connectionist Temporal Classification) 是目前建立端到端系統最常用的方法。CTC提出一個基於序列的建模方法,利用一個循環網絡來表示不同長度的輸入序列跟輸出序列之間的映射關係。而語音識別的目標是把語音特徵和輸出的文本序列之間的對應關係進行建模,因而CTC準則對於語音識別的場景特別適用。FSMN(Feedforward Sequential Memory Networks)提出在傳統的全連接神經網絡中添加可學習的記憶模塊(memory block),用來在層之間來傳遞上下文相關的信息。而DFSMN(Deep FSMN)是一種改進的FSMN結構,主要解決在訓練深層網絡時容易發生的梯度消失問題:通過在記憶模塊之間添加跳轉連接(skip connection),從而使得低層記憶模塊的輸出會被直接累加到高層記憶模塊裡。

粵語和普通話同屬於漢語系,在基本語法和發音單元上有一些共同點。因此我們在建立粵語ASR的時候,是基於已有的普通話模型,通過遷移學習(Transfer Learning)的方法來得到的。遷移學習是屬於機器學習的一個方法,主要的啟發來自人類的知識獲取過程。人類在學習新知識的時侯,是一個循序漸進的積累過程:從已掌握的知識通過推理和抽象,結合新的樣本掌控新的知識。簡單來說,遷移學習的具體方法是把訓練好的模型參數遷移到新的領域,以幫助新領域模型訓練。遷移學習的方法被證明對數據量缺乏的場景有明顯幫助,例如在多語言ASR和低資源語種ASR的建設。由於深層神經網絡的特點是從低級到高級逐步表示語言信息,較低層的網絡表徵的是低級的語言相關特徵,如基礎發音單元等,所以訓練好的普通話模型已經包含了漢語言相關的基礎聲學信息。圖1給出了我們建立粵語聲學模型的示意圖。在訓練粵語模型時,首先去除普通話模型的softmax輸出層,僅保留普通話模型的低層網絡,然後利用這個網絡作為初始模型來進行粵語模型訓練和迭代。這種方法的好處是我們可以用相對較少量的粵語標註數據得到較好的模型效果。

儘管粵語和跟普通話作為同語系有一些共性,可是粵語作為一個有悠久歷史,且在多個地區使用的方言有其自身的特點:1)各地區的用詞和發音方式存在著不同程度的差異。例如,在廣東會更多使用‘上課’,而香港會更多使用‘上堂’。另外,香港不少人的粵語不區分/n/聲母與/l/聲母,不過這兩個聲母在廣東某些地區的粵語中可以清晰地區分。2)符合粵語語法,詞彙的粵語白話文文本的獲取困難。粵語使用者在正式場合裡普遍使用普通話書寫系統,因此其語法,詞彙與標準漢語或普通話相符,但是與粵語白話文的詞彙和語法差異很大。3)粵語白話文缺乏官方標準,書寫比較混亂。在非正式場合如網上討論區,人們書寫粵語白話文時,用字一般依從民間約定俗成的慣例,錯別字、以借音字書寫粵語的情況時常出現,還有一些字詞存在不同書寫方法。

image.png

針對上述列舉出的粵語的特點,為了儘可能的覆蓋粵語本身的多樣性,在數據採集方面,我們有目標的採集和抓取在口音和用字等方面有代表性地區的數據。在建模單元的選取方面,我們採用粵語單字為基本的建模單元。考慮到單字的使用頻繁程度,同音不同字的情況,我們把粵語文本參考對應的粵拼 (JyutPing) 進行聚類,對於同音字統一選取出現率最高的單字來表示發音。對於多音字的情況,根據上下文決定發音。

如何獲取大量的粵語白話文文本是建立粵語ASR模型的一個關鍵和難點。為了解決這個問題,我們利用少量平行文本,訓練出一個普通話到粵語的機器翻譯模型,利用該模型大規模生產出粵語白話文文本。例如:

image.png

為解決書寫混亂的問題,我們在標註音頻或處理文本時,對存在不同書寫方法的字詞采用“歧義最小”原則,從而達到容易轉換以滿足不同場景和應用的需要。

為了評估ASR模型的性能,我們收集了粵語電話信道,多個不同領域和場景上的對話類測試集。口音方面主要包括香港和廣東口音,錄音條件既包含每個說話人佔用不同軌道的分軌錄音,也包括多個說話人同軌的錄音,內容則覆蓋了電商,金融和政務等領域。

利用上述所說的DFSMN-CTC建模方法,配合遷移學習、也得益於DFSMN在深層模型訓練上的優勢,粵語識別系統在上述電話粵語測試集的識別效果上,得到了相對基礎模型20%的相對提升。目前最新的粵語語音識別模型已經在公共雲官網正式上線,歡迎前往體驗。

智能語音產品官網鏈接:https://ai.aliyun.com/nls

image.png

Leave a Reply

Your email address will not be published. Required fields are marked *