來源 阿里語音AI 公眾號
TTS(Text-To-Speech 語音合成) 是AI領域一顆小而美的“珍珠”,有了它,才讓智能應用和智能硬件長出“嘴巴”活起來。作為語音解決方案的發聲環節,它既可以像你現實中常見到的——主持人播報新聞、教師授課、明星導航。也可以定製特色人聲,用或奇趣、或軟萌、或激越的聲音來讀小說,朗誦詩歌,解說視頻等等。本文將為大家介紹基於阿里最新 KAN-TTS語音合成技術的精品人聲定製產品。
什麼是語音合成?語音合成就是將文字轉換成一段自然流暢語音的技術。目前,語音合成技術在泛娛樂、教育及涉及人機交互業務領域有比較廣泛的應用。常見於語音導航、語音助手、電話客服;影視、遊戲的配音、有聲閱讀等等。不同的應用場景期望呈現的人聲各不相同,人聲模型定製產品應運而生。所謂人聲模型定製,就是通過語音合成技術,定製不同性別、年齡、風格、情緒的人聲模型以滿足不同業務和場景的需要。
從2010年deep learning技術引入到語音識別領域後,對推動語音技術發展起到了重要作用。但在TTS方向一直應用比較緩慢。直到2016年、2017年,隨著Google的WaveNet、Tacotron和MILA的Char2Wav的提出,才將deep learning的強大能力賦予整個TTS方向。從音質、表現力和建模難度幾個方面都取得顯著超越。最近兩年,學術界開始將第一流的成果帶入到實際產品中,隨之而來的,就是TTS商業化應用的飛速發展。例如Google Cloud在2018年上線了基於TPU的WaveNet產品方案,Microsoft Azure在2018年上線了基於GPU的全Neural產品方案。阿里雲也在2018年上線了全Neural產品方案,並且考慮到實際客戶和業務的擴展需求,歷經大量的優化後,該方案是目前業內唯一的完全基於CPU的全Neural產品化方案。
更新更好的技術上線,同為阿里旗下的阿里巴巴集團客服和螞蟻客服理所當然成為首批客戶,兩家客戶無論業務量還是技術要求均遠高於業界平均水平,這也從另外一個側面證明阿里最新KAN-TTS技術框架的實際應用水平。2019年,天貓精靈上線的個性化語音訂製服務也出自KAN-TTS,它可以讓父母用手機錄10分鐘語音數據定製自己的聲音,合成故事給孩子聽。
除了阿里集團內部採購應用,阿里雲在2019年對外推出了基於KAN-TTS的快速低成本的新一代人聲模型定製服務,成功進駐第一財經移動端,根據用戶提供的少量財經新聞主播數據,定製了一款高表現力合成聲音,從而可以在第一財經APP上為用戶提供高體驗的新聞朗讀效果。
隨著技術水平的進步和商業化應用的推進,阿里基於KAN-TTS技術框架的人聲模型定製服務優勢進一步凸顯。通常來說,市場對產品的通用要求,一是價廉,一是質優,KAN-TTS下的人聲模型定製產品優勢恰在於此。
1.更低的成本。在傳統人聲模型定製的時候,由於受限於技術框架,整個定製需要的數據量是2萬句話(20小時)左右。按照人聲數據錄製的高標準要求,2萬句話往往對應著半年以上的錄音週期,需要發音人連續不斷的進行高質量高可靠性的錄音工作。這中間需要持續支付錄音人、錄音棚、錄音師、數據處理等各項費用。而且因為錄音週期過長,會增加定製項目的風險。比如發音人因感冒發燒等狀況會直接影響嗓子的發揮,比如錄音棚因故裝修等等。基於KAN-TTS強大的模型結構以及成百上千個發音人的數據,使得我們可以利用更少量的數據構建效果更好的TTS聲音。同時,我們開發了一套語料選取工具,可以做到用盡量少的數據覆蓋儘量全的場景,進一步降低了錄音數據量。
上圖顯示了基於KAN-TTS框架下,不同數據量所帶來的定製效果。可以看出,即便是在2小時(2000句)以下的數據量時,基於KAN-TTS定製也可以取得不錯的定製效果,和10小時差距不大,明顯超過95%和真人錄音接近程度。相對於傳統定製而言,基於KAN-TTS的定製可以將數據量縮小到之前的十分之一,同時,定製週期也會從之前的半年以上縮短到一個月左右。
2. 更高的表現力。傳統人聲模型定製語音表現比較生硬單一,很難調試出適應不同場景、需求、有個性、有特色的語音產品。而基於KAN-TTS技術的人聲模型定製產品恰恰在這一方面表現突出。它能夠根據需求風格靈活定製更適合場景需求的產品。比如新聞產品要求發音準確、飽滿、正規;客服則要親切自然,注重交流,有時帶點口音更有親切感。KAN-TTS技術能夠更好的掌握每個人語音中的獨有特質,合成獨屬於你的特色語音,滿足個性化需求。
阿里雲精品人聲定製產品在最新的KAN-TTS技術加持下,持續挖掘不同應用場景下人聲的特點,沉澱出一套小數據量定製高音質、高表現力人聲模型的產品能力。目前我們已在新聞播報、小說閱讀、智能硬件等多場景實現了產品落地。更多案例詳見官網。(https://ai.aliyun.com/nls/customtts )
最後,語音合成產品更高階將通往何處?
從合成技術角度。追求的當然是更接近真人的音效、更細膩的音質、更自然的語音語調和更高的場景適配度。就目前來說,在KAN-TTS技術框架下定製的人聲模型,在這四個方面均有長足進步。
從應用門檻角度。目前大部分精品人聲模型定製的錄音採集工作依然要在專業的錄音棚,使用專業的錄音設備,在專業的錄音指導下完成。如何能降低錄音的門檻,讓普通人可以在普通環境,使用普通設備完成錄音採集,並可以保證採集的錄音滿足定製人聲模型的需求,是讓語音合成技術普惠的下一個努力目標。
從應用場景角度。隨著應用日漸普及,用戶對於語音合成的聲音已不再滿足於親切、自然的發音,擁有個性化的聲音正在成為消費者購買時佔比逐漸增加的參考維度。隨著技術的提高,市場需求的發展,個性化TTS、情感TTS會在各細分場景得到更大的應用,比如知識付費、明星IP、智能硬件、實體/虛擬機器人等。對於那些擁有大量文本內容,例如書籍、UGC等和擁有自己的音頻內容,例如強IP或者IP類渠道的客戶來說,語音合成或許是最適合他們的選擇。KAN-TTS技術框架下定製的人聲模型產品不但具有質優高效,成本低廉的優勢,而且合作方式更為靈活,可以提供TTS的雲/本地服務,還可以進行IP人聲定製或合作共建聲優工廠。
阿里語音在追求世界一流技術的同時持續為客戶提供精品人聲定製服務,致力實現科技創新和科技應用成果轉化的雙贏,更好的滿足客戶個性化需求!